1.产品发布
1.1 2.7B能打Llama 2 70B,微软祭出「小语言模型」
发布时间:2023-12-13
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
主要内容:11月份以来,大型语言模型技术领域发生了许多重要事件。OpenAI推出了GPTs,颠覆了先前的GPT模型,并通过引入董事会吸引了大量关注。谷歌也在年底前匆忙发布了超大规模Gemini模型,甚至涉及了"视频造假"。微软则正式发布了Phi-2小语言模型,拥有2.7B参数,几乎超越所有13B以下的大型模型。Phi-2表现出色,性能可媲美比自己大25倍的模型。微软强调了训练数据质量和创新技术的重要性,并展示了Phi-2在学术基准测试上的优异表现。此外,微软还通过Medprompt技术在医疗领域取得了突破,引导GPT-4在MMLU上取得了SOTA成绩。这些事件引发了广泛关注和热议,人们对Phi-2的未来充满期待。
1.2 Stability AI发布图像转3D对象模型
发布时间:2023-12-13
Introducing Stable Zero123: Quality 3D Object Generation from Single Images — Stability AI
主要内容:Stability AI推出了用于从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5构建,是一个面向非商业和研究用途的开源模型权重。与上一代Zero123-XL相比,该模型的训练效率提升了40倍。
开源地址:https://huggingface.co/stabilityai/stable-zero123
1.3图片生成精准动态视频,阿里、港大推出新模型LivePhoto
发布时间:2023-12-13
图片生成精准动态视频,阿里、港大推出新模型LivePhoto
主要内容:阿里、港大、蚂蚁集团合作推出LivePhoto,基于Stable Diffusion的动态视频生成模型,结合图像内容控制、运动建模、额外控制指令。LivePhoto在多轮测试中展现出卓越性能,与主流模型如Gen-2、Pikalabs相比效果显著,用户可通过调节运动强度定制视频中的运动方式。LivePhoto在零样本视频动画生成性能方面表现出色,用户通过简单调节运动强度能自由定制视频中的运动方式。
1.4实时生图工具KREA AI全面开放
发布时间:2023-12-13
https://twitter.com/krea_ai/status/1734866368489722035?s=20
主要内容:KREA AI实时生图工具一直处于内测阶段,现已开启公测,向所有人免费开放。其主要功能包括实时生成和编辑图像、图像分辨率增强、将Logo转换成视觉错觉以及创建类似中世纪螺旋AI图像等。
地址:https://www.krea.ai/home
1.5 Mozilla推出零代码网站创建工具Solo
发布时间:2023-12-13
体验网站:Solo AI Website Builder
主要内容:火狐浏览器开发商Mozilla昨日宣布推出Solo,这是一个面向个体企业家的AI网站构建器,用户可通过自然语言、无需编写代码来创建自己的网站。Solo专注于优化SEO(搜索引擎优化),以增加来自谷歌的搜索流量,可以从现有社交媒体中采样文本和评论并展示最佳内容,同时支持移动端。
1.6百度文心一言插件商城上线
发布时间:2023-12-13
文心一言插件商城重磅上线!
主要内容:文心一言插件商城正式上线,商城集合了众多高质量插件,涵盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景。用户只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求,实现“指令即服务”的便捷体验。开发者也可以根据需求,自行设计插件。
开发者社区:飞桨AI Studio星河社区-人工智能学习与实训社区
2.技术更新
2.1 runway支持人物面部生成指定表情
发布时间:2023-12-13
runway可以让人物面部生成指定表情
主要内容:Runway运动笔刷功能升级,通过结合提示词,能够在人物面部快速准确地产生指定表情,提高创作效率。运动笔刷是Runway推出的一项创新技术,用户无需输入文字,通过手势操作即可使图片动起来,简化视频制作流程。制作人员可以更方便地控制人物表情,使人物形象更加生动,为内容创作提供了更灵活的可能性。
2.2 Meta Ray-Ban 智能眼镜推出多模态 AI 功能
发布时间:2023-12-13
Meta启动Ray-Ban智能眼镜多模态AI功能测试_TechWeb
主要内容:据外媒报道,Meta启动了早期访问计划,允许Ray-Ban Meta智能眼镜用户测试新的多模态人工智能功能。该功能利用车载摄像头和麦克风处理环境数据,提供上下文信息,例如通过眼镜的摄像头和麦克风看到和听到的东西。Meta CEO马克・扎克伯格在Instagram上展示了这项功能,眼镜推荐与他拿着的衬衫相配的裤子,并提供搭配建议。此外,眼镜AI助手还展示了翻译文本和生成图片描述的能力。测试将在美国进行,最初只向少数用户推送该功能,以收集反馈并完善即将发布的AI功能。Ray-Ban Meta智能眼镜是今年9月推出的首款内置Meta AI的智能眼镜,搭载高通骁龙AR1 Gen 1芯片,配备1200万像素摄像头,支持1080P 60fps格式的视频录制和高分辨率照片拍摄。
2.3南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频
发布时间:2023-12-13
南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频
主要内容:南大研究人员提出通用框架,通过音频和照片生成逼真说话视频。采用多分支Transformer网络建模音频上下文和渲染投影纹理,实现全面建模运动。VividTalk展现出在多语言支持下生成具有丰富表情和自然头部姿势的口型同步视频的优越性能。
论文地址:https://arxiv.org/pdf/2312.01841.pdf
2.4用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习
发布时间:2023-12-13
用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习
主要内容:随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?字节跳动提出让 LLM 进行遗忘学习的方法来进行对齐。本文研究如何在 LLM 上进行 “遗忘” 操作,即忘记有害行为或遗忘学习(Machine Unlearning),作者展示了遗忘学习在三种 LLM 对齐场景上取得的明显效果:(1) 删除有害输出;(2) 移除侵权保护内容;(3) 消除大语言 LLM 幻觉。
论文地址:https://arxiv.org/abs/2310.10683
代码地址:https://github.com/kevinyaobytedance/llm_unlearn
3.商业动态
3.1传华为云大模型核心成员顾晓韬加入智谱AI
发布时间:2023.12.13
原华为云大模型核心成员顾晓韬加入智谱
主要内容:华为云大模型团队的核心技术骨干顾晓韬最近离职,加入了智谱AI。据了解,顾晓韬在华为云主要从事自然语言处理(NLP)和大模型的研发工作,是盘古大模型的三位算法负责人之一。他负责预训练,而另外两位负责监督微调的史佳欣和负责强化学习的朱疆成。在本科期间,顾晓韬曾在清华大学知识工程实验室进行科研实习,师从智谱AI的创始人唐杰,从事数据挖掘和模型训练等相关研究。他参与了清华大学Aminer数据挖掘系统的开发,并获得了一项名为“基于人名的邮箱地址推荐方法及系统”的专利。而Aminer是由唐杰主导的,也是智谱AI起家的第一个业务领域。
3.2阿里布局 AI 电商业务, 淘天设立 4 个 AI 团队
发布时间:2023.12.13
消息称阿里电商集中发力 AI,淘天集团已设立 4 个团队|AI|阿里|it之家_新浪新闻
主要内容:近期,各大互联网公司都在追逐AI大模型风口。据晚点LatePost报道,在新的管理团队领导下,“AI”正成为整个阿里的关键词。淘天集团刚刚梳理完其AI业务,从约20个团队收拢为4个,同时对内发布了淘天自己的大模型产品“图灵”,国际数字商业集团的AI团队目前已超过百人。阿里新任CEO吴泳铭在内部全员信中将“AI驱动”确立为集团的两大战略重心之一。马云在阿里内网罕见发言,表示“AI电商时代刚刚开始”,也进一步印证了阿里电商发力AI的消息。淘天集团正在筹建大模型团队,已开始招聘工作,团队的组建工作由淘天集团CEO戴珊、淘天集团CTO若海、阿里妈妈CTO郑波等人共同牵头。淘宝旗下目前已经拥有大模型原生AI应用“淘宝问问”,但用户买不买单还不好说。
4.其他资讯
4.1趣味项目CLoT:训练LLM更幽默地回答问题
发布时间:2023.12.13
趣味项目CLoT:训练LLM更幽默地回答问题
主要内容:趣味项目CLoT通过日本传统喜剧游戏“大喜利”挑战AI,培养其成为幽默吐槽高手。研究人员构建了多模态Oogiri-GO数据集,通过特殊训练方法使AI学会在游戏中产生创意和幽默回答。CLoT显著提高了大语言模型(LLM)在多种Oogiri游戏中的幽默表现,展现了卓越的创造性和泛化能力。
项目地址:https://github.com/sail-sg/CLoT