每日一看大模型新闻（2024.1.12）首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%；谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途；为大模型恶补数学

1.产品发布

1.1 Luma AI：推出文生3D模型Genie 1.0

发布日期：2024.1.12

https://twitter.com/LumaLabsAI/status/1744778363330535860?s=20

主要内容：随着生成式AI的发展，科技公司纷纷进军3D生成领域。文生3D模型的新玩家Luma AI发布了Genie1.0项目，只需输入文字提示，即可在10秒内生成四个高保真的3D模型。用户可以在三维网格界面内对模型的纹理进行编辑。这些AI生成的3D模型可以在屏幕上预览，也可以导出到Blender、Unity等工具中进一步使用。Genie1.0不仅有网页版，还可以在discord平台和手机端试玩。

体验地址：https://lumalabs.ai/genie

1.2阿里巴巴国际站AI外贸产品亮相 AI采购助手将上线新功能

发布日期：2024.1.12

CES2024：阿里巴巴国际站AI外贸产品亮相 AI采购助手将上线新功能

主要内容：在美国CES展上，阿里巴巴国际站的AI外贸产品亮相，并提供了PC试用版。此次亮相的AI外贸产品是“采购助理”，旨在为海外买家提供采购帮助，实时响应咨询并提供即刻解答。数百位参与内测的海外买家表示，这将大幅降低他们参与跨境采购的门槛，帮助他们高效便捷地匹配到更精准的货源。未来，AI采购助手还将陆续上线寻源Agent、AI跟单等功能，推进AI在海外买家端的应用落地，可能吸引大批B端专业采购买家在线上寻源采购。

1.3首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

发布日期：2024.1.12

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

主要内容：深度求索团队最新开源的160亿参数专家模型DeepSeek MoE，在性能和计算量方面表现出色。与密集的Llama 2-7B模型相比，DeepSeek MoE在数学和代码能力上具有明显优势，计算量仅为40%。该模型采用全新的自研MoE架构，具有更细粒度的专家划分和共享专家设置，提高了模型在不同任务上的准确性和知识获取的针对性。DeepSeek MoE目前推出的版本参数量为160亿，实际激活参数量大约是28亿。研发完毕后，团队还将对145B版本进行开源。

论文地址：https://arxiv.org/abs/2401.06066

参考链接：深度求索开源国内首个MoE大模型，技术报告、模型权重同时发布

1.4联想刘军首次提出智能终端AI OS，年内将正式发布

发布日期：2024.1.12

联想刘军首次提出智能终端AI OS，年内将正式发布_个人_Agent_产业 (sohu.com)

主要内容：在2024年的国际消费电子展（CES）上，联想集团中国区总裁刘军在接受媒体采访时透露，联想正在致力于打造“智能终端AI OS（操作系统）”，该操作系统将围绕多端产品展开，并计划在今年正式发布。这一“智能终端AI OS”将在AI技术的驱动下，内嵌个人Agent（智能体）、个人大模型、本地知识库和应用接口，从而形成下一代AI操作系统。刘军认为，AI技术的突破将在PC、手机、AIoT等所有智能终端产品领域掀起第三次技术革命浪潮，重塑终端体验及产业生态，类似于“小型化和图形化”、“网络化和移动化”给PC产业带来的两次技术变革。

2.技术更新

2.1谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

发布日期：2024.1.12

谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

主要内容：获取高质量数据已成为大模型训练的瓶颈。最近，《纽约时报》起诉OpenAI并索赔数十亿美元，指责GPT-4抄袭。谷歌MIT研究人员发现，从大模型中学习可以获得使用真实数据训练的最佳模型表征。他们提出了一种完全从合成图像和描述学习虚拟表征的方法SynCLR，无需任何真实数据。实验结果表明，SynCLR方法学习到的表征与OpenAI的CLIP在ImageNet上的传输效果一样好。这种方法利用生成模型作为建立大规模训练集的数据源，具有新的数据管理控制方法、易于共享和存储以及无限数量的数据样本等优点。

论文地址：https://arxiv.org/abs/2312.17742

2.2字节让达芬奇和蒙娜丽莎“隔空吵架”，只需一张图、一段音频、一个情感片段

发布日期：2024.1.12

字节让达芬奇和蒙娜丽莎“隔空吵架”，只需一张图、一段音频、一个情感片段

主要内容：字节跳动智能创作团队和得克萨斯大学达拉斯分校提出了一项名为DREAM-Talk的基于扩散模型框架，能够生成逼真的、嘴唇同步的讲话面部视频。该框架接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子作为输入，并生成一段包含高质量情感表达的视频。该框架通过映射音频到表情、生成3D脸部表情参数等步骤实现。与最新方法相比，DREAM-Talk在情感表达、嘴唇同步、身份保持和图像质量方面表现出显著优越的结果。此外，该框架还支持多人物情感演示、跨越时空的对话演示以及多语言演示。

论文地址: https://arxiv.org/abs/2312.13578

2.3谷歌提出Instruct-Imagen：多模态指令的图像生成

发布日期：2024.1.12

希望早日开源！谷歌提出Instruct-Imagen：多模态指令的图像生成-CSDN博客

主要内容：谷歌DeepMind和Google Research提出了一种名为Instruct-Imagen的多模态指令图像生成模型。该模型通过引入指令微调技术，能够根据文本指令描述的目标和多张参考图像准确生成新图像，效果堪比PS大神。在第一阶段，团队使用扩散模型增强模型处理多模态指令的能力；在第二阶段，忠实地遵循多模态用户意图。实验表明，Instruct-Imagen在领域内任务评估和零样本任务评估上表现优异，能处理复杂的多模态条件，甚至能处理之前从未见过的指令组合。

2.4为大模型恶补数学，上交开源MathPile语料库，95亿tokens，还可商用

发布日期：2024.1.12

为大模型恶补数学，上交开源MathPile语料库，95亿tokens，还可商用

主要内容：上海交通大学生成式人工智能实验室推出了「MathPile」，这是一套专门针对数学领域的高质量、多样化预训练语料库，其中包含约 95 亿 tokens，旨在提升大型模型在数学推理方面的能力。MathPile 具备以下几个特点：1. 以数学为中心；2. 多样性；3. 高质量；4. 数据文档化。研究团队还提供了很多清洗过程中的数据样例。此外，研究团队还推出了 MathPile 的商业版 ——「MathPile_Commercial」，进一步拓宽其应用范围和商业潜力。

论文地址：https://huggingface.co/papers/2312.17120

项目地址：Generative AI for Math: Part I MATHPILE: A Billion-Token-Scale Pretraining Corpus for Math

代码地址：GitHub - GAIR-NLP/MathPile: Generative AI for Math: MathPile

数据集研究使用：https://huggingface.co/datasets/GAIR/MathPile

数据集商用版本：https://huggingface.co/datasets/GAIR/MathPile_Commercial

3.其他资讯

3.1实测OPPO大模型手机：路人甲一抹就没，电话粥一键总结

发布日期：2024.1.12

实测OPPO大模型手机：路人甲一抹就没，电话粥一键总结

主要内容：OPPO Find X7系列手机内置端侧大模型，提升了整个手机和系统的AI浓度。新AI能力体现在四个方面：一键消除照片中的人群、AI大模型语音摘要、AI文章摘要和智能助手小布升级。其中，AIGC消除和AI大模型语音摘要都是系统应用。这些功能都是在OPPO的大模型脚步基础上，通过与软件系统的深度融合和推出旗舰硬件实现的。OPPO的目标是为每个人打造有用的大模型及智能体，并开源Agent框架，打造一站式的“智能体开发平台”，支持智能体的高效孵化、托管与应用。

大模型 2024 高质量多模态 3d模型 token 智能体操作系统 llama llama 2 图像生成语料库 huggingface arxiv generative ai 情感表达语音摘要生成模型数据集数据获取