新鲜AI产品点击了解:https://top.aibase.com/
???AI应用
通义千问上线通义舞王
阿里云通义千问APP近日上线了一项名为“通义舞王”的免费功能,用户只需在APP内输入相应口令并上传照片,系统即可生成个性化的舞蹈视频。
Meta发布生成式AI调试工具HawkEye
Meta发布了一款名为HawkEye的生成式AI调试工具,旨在解决机器学习模型在生产中面临的挑战。HawkEye引入了分支决策系统,通过实施决策树来加速识别和解决模型异常问题,并计划将其开源,推动整个行业在AI运维方面取得重要进展。
Pile:一款内置OpenAI API的AI日记软件
Pile是一款内置OpenAI API的AI日记软件,可以帮助用户撰写和保存日记条目,记录思考和经历。
项目地址:https://top.aibase.com/tool/pile
????大模型动态
小冰大模型获备案
小冰公司宣布已获得“小冰大模型”国内备案,结束静默期,正式发布一系列产品。
网易有道推出子曰大模型2.0
教育科技公司网易有道推出了国内首个教育大模型“子曰”2.0版本,并发布AI家庭教师“小P老师”。
维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4
斯坦福研究人员利用维基百科数据训练大模型WikiChat,成功减轻了幻觉问题,并在事实准确性和对话性方面超过了其他模型。通过优化和改进,WikiChat在各个方面的性能都显著领先,尤其在事实准确性方面达到了97.3%。
论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
项目代码:https://top.aibase.com/tool/wikichat
清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
近期,清华、浙大等学府推动下出现了一系列性能优异的开源视觉模型,其中LLaVA、CogAgent和BakLLaVA备受关注。
论文地址:https://arxiv.org/pdf/2312.08914.pdf
???AI新鲜事
斯坦福炒虾机器人爆火全网!成本仅22万元
斯坦福华人团队开发的炒虾机器人MobileALOHA成为了全网的热议话题。这个机器人能够炒菜、洗碗等各种复杂任务,仅用50个演示就能够让机器人始终如一地完成一项任务。
论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf
Midjourney训练AI使用的艺术家数据库名单泄露引发争议
Midjourney训练AI用的艺术家数据库泄露,包括知名艺术家如Banksy、David Hockney等。
ChatGPT在儿科疾病诊断中错误率高达83%
发表在《美国医学会儿科杂志》上的一项研究表明,ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%,较去年一般医学病例的39%更低。
商汤科技推AI台灯元萝卜SenseRobot
商汤科技发布了一款名为“元萝卜SenseRobot”的台灯产品,该台灯具备AI离座感应和自动延时关灯功能,方便节能和使用。
网友发掘最新旅游方式 靠Midjourney V6“游”遍中国
知名博主“快刀青衣”利用Midjourney V6生成了9个国内著名景点的效果图,包括少林寺、天坛、长城、桂林山水、九寨沟、兵马俑等,通过AI“游”遍中国。
????聚焦开发者
面部图像修复突破性AI方法Dual-Pivot Tuning
加利福尼亚大学洛杉矶分校和Snap Inc.的研究团队开发了一种名为“Dual-Pivot Tuning”的个性化图像恢复方法。其主要目标是确保恢复的图像对个体的身份和降质输入图像具有高保真度,同时保持自然外观。
项目体验网址:https://top.aibase.com/tool/personalized-restoration-via-dual-pivot-tuning
香港大学和微软推高效声音转换方法CoMoSVC
CoMoSVC是一种创新技术,可以将一个人的歌声转换成另一个人的歌声。这个项目由香港大学和微软亚洲研究员共同开发,通过一步采样实现快速高质量的声音转换,为音频转换领域带来重大进步。
项目地址:https://top.aibase.com/tool/comosvc
论文地址:https://arxiv.org/pdf/2401.01792.pdf
HandRefiner:解决AI生图手部畸形难题
HandRefiner是一种可以修正形状不正常的手部图像的方法。在生成图像方面,目前的图像生成模型已经非常出色,但是在生成人类手部的图像时常常会出现问题,例如手指数量不对或者手形怪异。
模型下载地址:https://top.aibase.com/tool/handrefiner
项目地址:https://github.com/wenquanlu/HandRefiner/
视觉编码器VCoder:提高模型在识别图像方面的能力
VCoder是一个视觉编码器,旨在提高多模态语言模型(MLLM)在识别图像中的对象和理解图像场景方面的能力。它能够帮助模型更好地理解和分析图像内容。
项目地址:https://top.aibase.com/tool/vcoder