AI视野：谷歌推多模态大模型Gemini；抖音上线抖音心晴；苹果发布 MLX 模型框架；Meta推出AI图像生成器网站

????大模型动态

谷歌发布Gemini

谷歌推出多模态大模型Gemini1.0，具备处理文本、代码、音频、图像和视频等多种信息的能力，分为Ultra、Pro和Nano三种规模，性能超越领先模型，Gemini Ultra在多任务语言理解中首次超越人类专家水平，计划明年初向开发者推出。

苹果发布 MLX 模型框架

苹果公司悄悄发布了MLX模型框架，表明可能加大在人工智能领域的投入，推动生成式人工智能应用程序的发展。

Playground宣布开源Playground V2版本

文生图平台Playground宣布开源Playground V2版本，允许商业化，用户通过文本就能生成3D、动漫、素描、朋克、暗黑等多种类型1024x1024图片，同时提供免费在线体验。

免费体验地址:https://playground.com/

开源地址:https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic

???AI新鲜事

抖音上线抖音心晴

抖音计划推出多个AI聊天机器人，首个为情绪关怀机器人“抖音心晴”，可通过智能模型生成安慰性对话，目前在小范围测试中。机器人可感知用户情绪、提供陪伴和解答问题，未来或添加语音和视频功能。

Meta 推出免费独立的 AI 图像生成器网站

在谷歌推出 Gemini 之后，Meta 也不甘示弱，在网络上推出了基于其 Emu 图像合成模型的免费独立 AI 图像生成器网站——Imagine with Meta，允许用户通过自然语言描述来生成图像。

麦当劳2024年起将使用AI确保薯条新鲜度

麦当劳宣布与谷歌合作，将在2024年通过引入生成式人工智能对全球门店进行硬件和软件升级，以提供更快捷、更新鲜的食物体验。

Meta、微软将购买AMD最新AI芯片MI300X

Meta、微软和OpenAI宣布将采用AMD最新的Instinct MI300X人工智能芯片，作为替代Nvidia昂贵图形处理器的举措，可能改变AI芯片市场竞争格局。

微软计划2024年发布以AI为中心的Windows版本

在经历了领导层的重大变革和前 Windows 负责人 Panos Panay 离职之后，微软在新成立的 Windows & Web Experiences 团队的领导下，开始制定新的 Windows 路线图，该团队目前负责开发下一个主要的 Windows 客户端更新，代号为「Hudson Valley」。

MIT新创公司Liquid AI融资近4千万美元

由MIT孵化的Liquid AI完成近4千万美元融资，致力于开发基于液态神经网络的精简、可解释、具动态适应性的人工智能系统，应用涵盖自动驾驶、气象预测、医疗数据分析等多个领域。

DeepMind最新Nature论文被爆重大缺陷

谷歌DeepMind团队最新Nature论文声称AI能创造新合成物，但伦敦大学化学教授指出论文存在严重缺陷，AI合成已知化合物并错误成分。UC伯克利教授提供实验证据辩解，引发对AI在化学应用的讨论。

???AI应用

Google发布AI编程助手AlphaCode2

谷歌发布的AlphaCode2是由Gemini模型驱动的AI编程工具，在编程竞赛中表现优异，特别擅长处理动态规划等复杂问题。

亚马逊云科技推出新型生成式AI助手Amazon Q

亚马逊云科技发布办公场景专用生成式 AI 助手 Amazon Q，可定制化回答复杂问题、生成内容，并适用于多个服务和应用程序。

?‍???聚焦开发者

Meta改进SAM，参数仅为原版5%

对于2023年的计算机视觉领域来说，「分割一切」是备受关注的一项研究进展。Meta提出了一种改进的SAM模型，通过掩码图像预训练的方式降低了模型的复杂性，并保持了良好的性能。该模型在图像分类、物体检测和分割等任务上取得了比其他预训练基线更好的结果，并且在小模型上获得了显著收益。通过预训练和微调，SAM模型在不同任务上都有优秀的表现，为计算机视觉领域的研究和应用带来了新的可能性。

论文链接:https://arxiv.org/pdf/2312.00863.pdf

论文主页:https://yformer.github.io/efficient-sam/

MIT与Adobe联手开发DMD

MIT和Adobe的研究团队提出了分布匹配蒸馏（DMD）方法，将扩散模型转化为一步图像生成器，以显著提高生成速度并保持图像质量与Stable Diffusion相当。

项目网址:https://tianweiy.github.io/dmd/

论文网址:https://arxiv.org/abs/2311.18828

田渊栋团队最新论文解决大模型部署难题

田渊栋团队通过新的KV缓存方法成功解决大型语言模型在实际部署中的内存和输入长度限制问题，将推理系统的吞吐量提高了近30倍。

论文地址:https://arxiv.org/pdf/2306.14048.pdf

代码地址:https://github.com/FMInference/H2O

AI换脸图像合成框架FaceStudio 支持多人图像合成

FaceStudio是一种身份保留合成方法，旨在在图像生成过程中保持主题的身份，并添加个性化的风格。与传统方法相比，FaceStudio通过直接前馈机制实现了快速高效的图像生成，避免了繁琐的调优和多个参考图像的需求。

项目地址:https://icoz69.github.io/facestudio/