???AI应用
Midjourney正式上线Alpha网页版!支持已生成图片设置参数回填
Midjourney Alpha全新升级,生成用户界面更便捷,成功生成1万张图片即可获得权限,可视化图像参数支持点击回填到提示词输入框,提升生成体验。
截图自归藏
runway支持人物面部生成指定表情
Runway宣布运动笔刷功能升级,结合提示词实现对人物面部表情的精准控制,让制作人员更方便地在创作过程中控制人物的表情。
Snapchat推出AI生成照片功能
Snapchat Plus会员现在可通过AI生成图像,选择文本提示或预制选项,丰富定制照片,包括背景填充和主题变换。
????大模型动态
腾讯发布视频生成模型AnimateZero 效果秒杀Animatediff
腾讯最新发布的AnimateZero视频生成模型效果优于Animatediff,具备更好的SD生态兼容性,并采用社区SD模型进行演示。
项目地址:https://vvictoryuki.github.io/animatezero.github.io/
微软发布小语言模型AI Phi-2
微软研究院推出Phi-2小语言模型,参数达27亿,性能媲美Meta的Llama2-7B和Mistral-7B。尽管规模仅为Llama2-7B的一半,Phi-2性能更佳,且在回答物理问题和指导学生方面表现出色。然而,目前仅限用于研究目的,不可用于商业用途。
阿里、港大推动态视频生成模型LivePhoto
阿里巴巴、香港大学、蚂蚁集团联合推出LivePhoto,这是一种创新的动态视频生成模型,通过图像内容控制、运动建模、额外控制指令等模块,精准生成高质量动态视频。
论文地址:https://arxiv.org/abs/2312.02928
通义千问72B模型荣登大模型评测平台OpenCompass榜首
通义千问72B模型以67.1的高分在中国权威模型评估平台OpenCompass上获得榜首,显示出其在学科、语言、知识、理解和推理等五个维度的全面能力。
???AI新鲜事
OpenAI恢复会员注册
OpenAI开始逐步恢复ChatGPT Plus注册,已向部分用户发出邀请,并表示感谢用户注册候补名单。
Meta使用盗版书籍训练AI模型遭指控
Meta公司在夏季提起的版权侵权诉讼中,被指控无视律师的警告,使用数千本盗版书籍训练其AI模型。最新提交文件揭示了Meta关联研究员在Discord上讨论数据集采购的聊天记录,显示公司或许明知使用这些书籍存在法律风险。
OpenAI非营利部门去年净收入不足4.5万美元
OpenAI的非营利部门在最新税务文件中披露,去年净收入仅为44,485美元,尽管其盈利业务可能为公司创造了数百万美元的收入,引起外界关注。
顶尖AI公司薪酬榜曝光:600万天价年薪震惊网友
一张最新薪酬表格曝光,显示OpenAI领衔全美AI公司,提供高达600万美元年薪,引发社会广泛热议。初级码农时薪低至85美元,突显AI行业薪资差距。网友对高薪AI科学家和低薪工程师的差异表示质疑。各大科技公司年薪不一,但大多数超过百万美元。未来AI领域人才需求增长,薪资引起广泛关注。
特斯拉人形机器人Optimus二代上线
特斯拉人形机器人Optimus二代上线,展示更灵活的双手和轻盈身体,具备对物体分类和瑜伽动作等新能力,引领机器人技术创新。
Meta 推出雷朋智能眼镜的多模态 AI 功能测试
Meta宣布早期访问测试其多模态AI功能,应用于Ray-Ban智能眼镜,通过摄像头和麦克风告知用户周围视听信息,包括物体识别和语言翻译。
????聚焦开发者
南大提出全新框架VividTalk 一张照片一段声音秒生超逼真视频
南大等机构研究人员推出VividTalk框架,通过一段音频和一张照片生成高质量、富有表现力的说话视频,实现口型和音频的无缝对齐。
论文地址:https://arxiv.org/pdf/2312.01841.pdf
趣味项目CLoT:训练LLM更幽默地回答问题
趣味项目CLoT通过日本传统喜剧游戏“大喜利”挑战AI,培养其成为幽默吐槽高手。研究人员构建了多模态Oogiri-GO数据集,通过特殊训练方法使AI学会在游戏中产生创意和幽默回答。CLoT显著提高了大语言模型(LLM)在多种Oogiri游戏中的幽默表现,展现了卓越的创造性和泛化能力。
HiFi4G渲染技术实现25倍压缩率,照片级真实人体建模和高效渲染
上海科技大学、NeuDim、字节跳动和DGene的研究团队联合发布的HiFi4G渲染技术,以紧凑的高斯喷溅表示法和双图机制为基础,实现了25倍压缩率。
项目网址:https://nowheretrix.github.io/HiFi4G/
论文网址:https://arxiv.org/abs/2312.03461