每日一看大模型新闻（2024.1.4）中国AIGC广告营销产业全景报告：五大变革四大影响；马斯克也逃不过「科目三」，阿里这个应用都要把外国人馋哭了；通义千问：上线图生视频功能

1.产品发布

1.1首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型

发布日期：2024-1-4

首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型

主要内容：随着ChatGPT的爆红，多模态领域涌现出许多可以处理多种模态输入的对话模型，如LLaVA, BLIP-2等。为了进一步扩展多模态大模型的区域理解能力，新加坡国立大学NExT++实验室和清华大学的研究人员联手打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。该模型引入了全新的基于embedding的位置建模方式pix2emb，使得模型的输出格式可以非常方便地扩展到更多复杂形式，如segmentation mask。通过充足的实验评测，作者展示了NExT-Chat在多种场景下的优秀数值表现和展示效果。

多模态对话模型Demo：NExT-Chat

论文：https://arxiv.org/pdf/2311.04498.pdf

代码：GitHub - NExT-ChatV/NExT-Chat: The code of the paper "NExT-Chat: An LMM for Chat, Detection and Segmentation".

1.2马斯克也逃不过「科目三」，阿里这个应用都要把外国人馋哭了

发布日期：2024-1-4

马斯克也逃不过「科目三」，阿里这个应用都要把外国人馋哭了

主要内容：近期，社交平台上一种名为「科目三」的舞蹈视频广受欢迎，其动作包括摇花手、半崴不崴的脚等。为了让更多人学会这个舞蹈，有人甚至推出了保姆级分解教程。但实际上，用户只需上传一张自己的照片，就可以通过阿里的通义千问APP生成相应的舞蹈视频，无需真人出镜。这项技术一经上线就受到了广大网友的追捧。背后的技术支持是阿里提出的Animate Anyone算法，它可以将静态图像转变为动态角色视频，解决了图像到视频生成中的一些细节不一致和运动不连贯问题。

论文地址：https://arxiv.org/pdf/2311.17117.pdf

项目地址：Animate Anyone

1.3 Pile:一款内置OpenAI API的AI日记软件

发布日期：2024-1-4

Pile：一款内置OpenAI API的AI日记软件 (chinaz.com)

主要内容：Pile是一款整洁美观的AI日记软件，内置OpenAI API，帮助撰写和保存日记，扩展思维广度。AI搜索功能快速查找日记内容，对话式交互帮助理解思考过程。Pile也注重用户的隐私和数据安全，保证用户的日记内容不会被泄露。

项目地址:https://top.aibase.com/tool/pil

1.4李飞飞团队新作：AI透视眼，穿越障碍看清你，渲染遮挡人体有新突破了

发布日期：2024-1-4

李飞飞团队新作：AI透视眼，穿越障碍看清你，渲染遮挡人体有新突破了-腾讯云开发者社区-腾讯云

主要内容：该研究提出了一种名为Wild2Avatar的神经渲染方法，即使在有遮挡的情况下也能完整、高保真地渲染人体。该方法采用场景自分解技术，将场景解耦为遮挡、人体和背景三个部分，分别进行渲染。与现有的神经渲染方法相比，Wild2Avatar在处理遮挡时更加准确，能够避免不完整的人体或视觉上的错误。该方法在数据集OcMotion和野外视频上进行了实验验证，并与Vid2Avatar、OccNeRF等其他方法进行了比较。结果表明，Wild2Avatar在人体几何形状和遮挡部分的渲染质量上表现更优。这种方法有望为视频渲染和虚拟现实等领域带来更大的灵活性。

2.技术更新

2.1谷歌研发升级版Bard和Agent平台

发布日期：2024-1-4

Google appears to be working on an ‘advanced’ version of Bard that you have to pay for - The Verge

主要内容：安卓开发者Dylan Roussel在社交平台X上透露了一系列谷歌正在研发的新功能或产品：Motoko，这是一个可以创建聊天机器人的平台；名为Bard Advanced的升级版聊天机器人Bard，由Gemini Ultra模型驱动，通过订阅存储服务Google One付费提供，有3个月免费试用；提供Bard使用示例的探索功能Gallery；可能用于管理长时间运行任务的Tasks功能；聊天界面背景、前景切换功能；用于扩展或改进提示词的Power Up。Roussel强调，这些都是未发布的功能，随时可能发生变化，也有可能不会落地。

2.2通义千问：上线图生视频功能

发布日期：2024-1-4

阿里云通义千问 App 上线“通义舞王”：一张照片就能生成跳舞视频 - IT之家

主要内容：阿里云通义千问APP推出了名为“全民舞王”的图生视频功能。用户可以上传全身照或选择内部提供的照片模板，并选择舞蹈模板，即可免费生成一段约10秒的舞蹈视频。目前，共有12款舞蹈模板可供选择，包括科目三、鬼步舞、兔子舞、极乐劲舞等热门舞蹈。从上传符合要求的照片到生成舞蹈视频，大约需要15分钟的时间。据悉，该功能背后采用了阿里自研视频生成模型Animate Anyone的算法，相关研究论文在去年11月底发布。除此之外，AI生图和图片理解功能也于近日在通义千问APP上线。

3.商业动态

3.1中国AIGC广告营销产业全景报告：五大变革四大影响，生成式AI让只为「一个人」打造广告成为可能

发布日期：2024-1-4

中国AIGC广告营销产业全景报告：五大变革四大影响，生成式AI让只为「一个人」打造广告成为可能

主要内容：在互联网流量红利消退的背景下，广告营销行业进入存量竞争。生成式AI技术的发展为品牌营销的破局提供了重要契机。大模型和生成式AI技术在广告营销行业的应用日益广泛，从广告脚本生成、个性化广告推送，到赋能企业营销全流程，都呈现出前所未有的火热态势。生成式AI为广告营销带来了五大变革，包括产业链、工作流程、内容生产场景、投放效果和业态与格局的变化。未来，随着生成式AI技术的不断发展和完善，广告营销行业将迎来更广阔的发展空间。对于传统营销企业而言，应该积极拥抱新技术，探索与大模型和生成式AI技术的结合点，以应对行业变革。对于创业公司而言，这也是一个难得的机遇，可以通过创新应用生成式AI技术，打造更具竞争力的广告营销产品和服务。

报告详情：Docs

3.2小冰公司宣布通过大模型备案

发布日期：2024-1-4

小冰公司宣布已获大模型备案_凤凰网

主要内容：小冰公司宣布，他们去年12月成功获得了“小冰大模型”国内备案，实现了不同参数规模和用途的自研大模型产品的落地，并部分完成了新范式商业化验证。结束静默期后，他们将一系列测试产品转为正式发布。小冰今日发布的产品包括：小冰克隆人，任何经过身份认证的创作者都可以通过小冰框架技术克隆自己并向粉丝发布；歌手克隆人分支联手网易云音乐发布X Studio 4.0版本，洛天依宣布入驻；小冰数字员工，面向B端企业客户的克隆人产品，升级为小冰大模型数字员工；小爱同学、OPPO等合作伙伴平台，“召唤小冰”技能服务正式逐步切换至小冰大模型。

3.3英特尔成立一家新的独立生成式人工智能公司Articul8 AI

发布日期：2024-1-4

英特尔成立一家新的独立生成式人工智能公司Articul8 AI_企业_客户_合作

主要内容：英特尔与资产管理公司DigitalBridge Group合作，成立新的人工智能公司Articul8 AI。该公司提供企业使用的生成式人工智能软件，核心产品是一个全栈生成式人工智能软件平台，能将客户数据、培训和推理保持在企业安全范围内。首席执行官由英特尔数据中心和人工智能集团前副总裁Arun Subramaniyan担任。最初，Articul8是英特尔与波士顿咨询集团合作开展的企业人工智能研究工作的成果。该平台现已准备好供金融服务、航空航天、半导体和电信领域的企业客户使用。

4.其他资讯

4.1国家数据局等部门：印发“数据要素”x三年行动计划

发布日期：2024-1-4

国家数据局等部门关于印发《“数据要素×”三年行动计划（2024—2026年）》的通知

主要内容：国家数据局等17部门发布了关于印发《“数据要素×”三年行动计划（2024—2026年）》的通知。根据该计划，到2026年底，将打造300个以上示范性强、显示度高、带动性广的典型应用场景，实现数据产业年均增速超过20%。在交通运输领域，计划挖掘数据复用价值，加强AI工具的应用。在科技创新领域，将以科学数据支持大模型开发，建设高质量语料库和基础科学数据集，以支持AI大模型的开发和训练。此外，计划提升数据供给水平，在科研、文化、交通运输等领域，推动科研机构、龙头企业等开展行业共性数据资源库建设，打造高质量的AI大模型训练数据集。

4.2加强AI等在应急机器人中的创新应用

发布日期：2024-1-4

应急管理部工业和信息化部关于加快应急机器人发展的指导意见

主要内容：紧急管理部和工业信息化部发布了关于加快发展紧急机器人的指导意见，计划在2025年前研发一批先进的紧急机器人，以显著提升其科学化、专业化、精细化和智能化水平。该计划旨在提高机器人的控制和智能水平，加强云计算、人工智能、大数据等技术在紧急机器人领域的创新应用，从而实现机器人智能化水平的提升。