???AI新鲜事
谷歌Gemini Pro开放
谷歌Gemini Pro大模型在研究基准测试中表现优异,支持32K上下文窗口的文本输入和生成功能,向Vertex AI云计算客户和AI Studio开发人员开放,提供多种功能和SDK,为构建AI应用程序提供更多可能性。
文心一言插件商城上线
百度文心一言插件商城正式上线,提供多功能插件,包括PPT生成、音视频提取、思维导图等,用户可通过简单指令满足多场景需求。插件商城还支持用户自主设计新插件。
ChatGPT成为Nature年度十大人物
2023年,《自然》杂志评选出年度十大人物,其中包括ChatGPT和OpenAI首席科学家苏茨克维,成为榜单首位非人类入选者,突显人工智能在科学界的引领地位。
全国首例AI声音侵权案公开审理
北京互联网法院审理全国首例AI声音侵权案公开审理,配音演员起诉魔音工坊APP和微软等五被告。配音演员以原告声音未经授权被AI化并在APP上售卖为由,将魔音工坊等五家公司诉至北京互联网法院,案件仍在审理中。
iQOO Neo9系列首批搭载自研AI蓝心大模型
iQOO Neo9系列手机将首次搭载自研AI蓝心大模型,在语言理解、文本创作等领域表现卓越,为用户带来更智慧、流畅、安全的体验。
AI主播 Channel1上线
近期热播剧《新闻女王》引发关注,与此同时,美国新闻初创公司Channel1发布了能24/7不间断播报新闻的AI主播,引发新闻界热议。
邢波团队提出全开源倡议LLM360
邢波团队提出LLM360全面开源倡议,旨在使大型语言模型训练过程透明,发布两个大型语言模型,并为研究者提供开发经验和性能评估结果。
论文地址:https://arxiv.org/pdf/2312.06550.pdf
项目网页:https://www.llm360.ai/
????大模型动态
谷歌Deepmind发布最先进的图像生成模型Imagen2
谷歌Deepmind推出Imagen2,一款强大的图像生成模型,通过参考图片和文本生成新图片和局部编辑,具有改进的图像描述理解和支持图像编辑功能。模型在安全性方面采用了数字水印工具SynthID,可在不损害图像质量的情况下防止潜在的风险。
地址:https://deepmind.google/technologies/imagen-2/
Stability.ai开源图片生3D模型Stable Zero123
Stability.ai在官网开源了基于丰田研究院和哥伦比亚大学联合开源的Zero123模型的优化版本Stable Zero123,通过改进渲染数据集和分数蒸馏,提升了3D模型生成效果和训练效率,可与SDXL高精准图片模型结合使用。
项目地址:https://github.com/cvlab-columbia/zero123
魔搭社区上线Mistral AI 首个开源 MoE 模型
Mistral AI最近在魔搭社区上线了首个开源MoE模型Mixtral8x7B,这是一个由8个专家网络组成的混合专家模型,拥有70亿参数,支持32k token上下文长度,在MT-Bench评测上达到了8.3分,与GPT3.5相当。
Mixtral-8x7B-v0.1模型:
https://www.modelscope.cn/models/AI-ModelScope/Mixtral-8x7B-v0.1/summary
Mixtral-8x7B-Instruct-v0.1模型:
https://www.modelscope.cn/models/AI-ModelScope/Mixtral-8x7B-Instruct-v0.1/summary
Mistral-7B-Instruct-v0.2新模型:
https://www.modelscope.cn/models/AI-ModelScope/Mistral-7B-Instruct-v0.2/summary
???AI应用
美图上线AI绘画与图片生成应用WHEE App
美图旗下WHEE移动端App正式上线,由MiracleVision4.0大模型提供支持,为用户提供一站式AI视觉创作服务,包括AI绘画、图片生成、修图、扩图、3D效果等功能,并汇集各领域创作者作品,促进创作者交流与合作。
谷歌推出AI音乐创作工具“MusicFX”
谷歌推出的AI音乐创作工具“MusicFX”利用Google的MusicLM和DeepMind的SynthID技术,让用户通过几句话即可生成原创音乐,同时强调负责任的AI创新。
体验网址:https://top.aibase.com/tool/music-fx
GoLinks发布企业人工智能搜索引擎GoSearch
GoSearch是GoLinks推出的人工智能搜索引擎,通过多模态搜索和AI核心技术,提供企业高效的信息检索体验,减轻员工认知负担,支持实时索引和兼容100多个数据源。
????聚焦开发者
阿里推虚拟试穿技术Outfit Anyone
阿里推出的Outfit Anyone虚拟试穿技术采用双流条件扩散模型,处理模特和服装数据,通过衣物图像实现逼真的虚拟试穿效果,结合Animate Anyone技术,轻松制作任意角色的换装视频。
项目地址:https://humanaigc.github.io/outfit-anyone/
体验地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone
斯坦福华人提出全新视频生成框架WonderJourney
斯坦福华人研究人员推出的WonderJourney框架,通过一句话或一张图生成连贯的3D场景,融合语言模型和视觉模块,展现出无限的创意可能。
项目网址:https://kovenyu.com/wonderjourney/
微软推压缩技术LLMLingua
微软推出LLMLingua,采用独特粗细压缩技术,解决大型语言模型中长提示带来的计算效率问题,实现高达20倍的压缩比例。
项目网址:https://github.com/microsoft/LLMLingua
论文网址:https://arxiv.org/pdf/2310.05736.pdf
南洋理工发布提高AI视频生成内容一致性方法FreeInit
南洋理工大学推出名为FreeInit的方法,通过优化推理初始噪声的时空低频组件,显著提高人工智能视频生成的内容一致性,为视频创作和人工智能应用带来新可能性。
项目地址:https://tianxingwu.github.io/pages/FreeInit/
谷歌发布开源虚拟人物库“VALID”
谷歌AR&VR与佛罗里达中央大学合作发布开源虚拟人物库“VALID”,含210个全套虚拟人物,代表七个不同种族,旨在促进多样性和包容。研究结果显示对亚洲、黑人和白人虚拟人物的一致认知,但其他种族存在认知歧义。同族偏见影响了虚拟人物辨识,强调参与者种族对研究的影响。库提供开放访问,支持Unity和Unreal等游戏引擎,挑战刻板印象,为虚拟人物研究和应用提供多样性视角。
项目网址:https://github.com/google/valid-avatar-library
论文:https://www.frontiersin.org/articles/10.3389/frvir.2023.1248915/full
来源:https://www.chinaz.com/2023/1214/1582834.shtml