1.产品发布
1.1 Luma AI:推出文生3D模型Genie 1.0
发布日期:2024.1.12
https://twitter.com/LumaLabsAI/status/1744778363330535860?s=20
主要内容:随着生成式AI的发展,科技公司纷纷进军3D生成领域。文生3D模型的新玩家Luma AI发布了Genie1.0项目,只需输入文字提示,即可在10秒内生成四个高保真的3D模型。用户可以在三维网格界面内对模型的纹理进行编辑。这些AI生成的3D模型可以在屏幕上预览,也可以导出到Blender、Unity等工具中进一步使用。Genie1.0不仅有网页版,还可以在discord平台和手机端试玩。
体验地址:https://lumalabs.ai/genie
1.2阿里巴巴国际站AI外贸产品亮相 AI采购助手将上线新功能
发布日期:2024.1.12
CES2024:阿里巴巴国际站AI外贸产品亮相 AI采购助手将上线新功能
主要内容:在美国CES展上,阿里巴巴国际站的AI外贸产品亮相,并提供了PC试用版。此次亮相的AI外贸产品是“采购助理”,旨在为海外买家提供采购帮助,实时响应咨询并提供即刻解答。数百位参与内测的海外买家表示,这将大幅降低他们参与跨境采购的门槛,帮助他们高效便捷地匹配到更精准的货源。未来,AI采购助手还将陆续上线寻源Agent、AI跟单等功能,推进AI在海外买家端的应用落地,可能吸引大批B端专业采购买家在线上寻源采购。
1.3首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%
发布日期:2024.1.12
首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%
主要内容:深度求索团队最新开源的160亿参数专家模型DeepSeek MoE,在性能和计算量方面表现出色。与密集的Llama 2-7B模型相比,DeepSeek MoE在数学和代码能力上具有明显优势,计算量仅为40%。该模型采用全新的自研MoE架构,具有更细粒度的专家划分和共享专家设置,提高了模型在不同任务上的准确性和知识获取的针对性。DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。研发完毕后,团队还将对145B版本进行开源。
论文地址:https://arxiv.org/abs/2401.06066
参考链接:深度求索开源国内首个MoE大模型,技术报告、模型权重同时发布
1.4联想刘军首次提出智能终端AI OS,年内将正式发布
发布日期:2024.1.12
联想刘军首次提出智能终端AI OS,年内将正式发布_个人_Agent_产业 (sohu.com)
主要内容:在2024年的国际消费电子展(CES)上,联想集团中国区总裁刘军在接受媒体采访时透露,联想正在致力于打造“智能终端AI OS(操作系统)”,该操作系统将围绕多端产品展开,并计划在今年正式发布。这一“智能终端AI OS”将在AI技术的驱动下,内嵌个人Agent(智能体)、个人大模型、本地知识库和应用接口,从而形成下一代AI操作系统。刘军认为,AI技术的突破将在PC、手机、AIoT等所有智能终端产品领域掀起第三次技术革命浪潮,重塑终端体验及产业生态,类似于“小型化和图形化”、“网络化和移动化”给PC产业带来的两次技术变革。
2.技术更新
2.1谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
发布日期:2024.1.12
谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
主要内容:获取高质量数据已成为大模型训练的瓶颈。最近,《纽约时报》起诉OpenAI并索赔数十亿美元,指责GPT-4抄袭。谷歌MIT研究人员发现,从大模型中学习可以获得使用真实数据训练的最佳模型表征。他们提出了一种完全从合成图像和描述学习虚拟表征的方法SynCLR,无需任何真实数据。实验结果表明,SynCLR方法学习到的表征与OpenAI的CLIP在ImageNet上的传输效果一样好。这种方法利用生成模型作为建立大规模训练集的数据源,具有新的数据管理控制方法、易于共享和存储以及无限数量的数据样本等优点。
论文地址:https://arxiv.org/abs/2312.17742
2.2字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频、一个情感片段
发布日期:2024.1.12
字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频、一个情感片段
主要内容:字节跳动智能创作团队和得克萨斯大学达拉斯分校提出了一项名为DREAM-Talk的基于扩散模型框架,能够生成逼真的、嘴唇同步的讲话面部视频。该框架接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子作为输入,并生成一段包含高质量情感表达的视频。该框架通过映射音频到表情、生成3D脸部表情参数等步骤实现。与最新方法相比,DREAM-Talk在情感表达、嘴唇同步、身份保持和图像质量方面表现出显著优越的结果。此外,该框架还支持多人物情感演示、跨越时空的对话演示以及多语言演示。
论文地址: https://arxiv.org/abs/2312.13578
2.3谷歌提出Instruct-Imagen:多模态指令的图像生成
发布日期:2024.1.12
希望早日开源!谷歌提出Instruct-Imagen:多模态指令的图像生成-CSDN博客
主要内容:谷歌DeepMind和Google Research提出了一种名为Instruct-Imagen的多模态指令图像生成模型。该模型通过引入指令微调技术,能够根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比PS大神。在第一阶段,团队使用扩散模型增强模型处理多模态指令的能力;在第二阶段,忠实地遵循多模态用户意图。实验表明,Instruct-Imagen在领域内任务评估和零样本任务评估上表现优异,能处理复杂的多模态条件,甚至能处理之前从未见过的指令组合。
2.4为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用
发布日期:2024.1.12
为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用
主要内容:上海交通大学生成式人工智能实验室推出了「MathPile」,这是一套专门针对数学领域的高质量、多样化预训练语料库,其中包含约 95 亿 tokens,旨在提升大型模型在数学推理方面的能力。MathPile 具备以下几个特点:1. 以数学为中心;2. 多样性;3. 高质量;4. 数据文档化。研究团队还提供了很多清洗过程中的数据样例。此外,研究团队还推出了 MathPile 的商业版 ——「MathPile_Commercial」,进一步拓宽其应用范围和商业潜力。
论文地址:https://huggingface.co/papers/2312.17120
项目地址:Generative AI for Math: Part I MATHPILE: A Billion-Token-Scale Pretraining Corpus for Math
代码地址:GitHub - GAIR-NLP/MathPile: Generative AI for Math: MathPile
数据集研究使用:https://huggingface.co/datasets/GAIR/MathPile
数据集商用版本:https://huggingface.co/datasets/GAIR/MathPile_Commercial
3.其他资讯
3.1实测OPPO大模型手机:路人甲一抹就没,电话粥一键总结
发布日期:2024.1.12
实测OPPO大模型手机:路人甲一抹就没,电话粥一键总结
主要内容:OPPO Find X7系列手机内置端侧大模型,提升了整个手机和系统的AI浓度。新AI能力体现在四个方面:一键消除照片中的人群、AI大模型语音摘要、AI文章摘要和智能助手小布升级。其中,AIGC消除和AI大模型语音摘要都是系统应用。这些功能都是在OPPO的大模型脚步基础上,通过与软件系统的深度融合和推出旗舰硬件实现的。OPPO的目标是为每个人打造有用的大模型及智能体,并开源Agent框架,打造一站式的“智能体开发平台”,支持智能体的高效孵化、托管与应用。