-
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
近年来,文本生成图像领域取得了显著进展,尤其是基于扩散(Diffusion)的图像生成模型在细节层面上展现出逼真的效果。 然而,一个挑战仍然存在:如何将文本准确地融入图像。 生活中存在大量的「含文本图像」,从广告海报到书籍封面,再到路牌指示,都包含了重要...
-
模型A:幸亏有你,我才不得0分,模型B:俺也一样
琳琅满目的乐高积木,通过一块又一块的叠加,可以创造出各种栩栩如生的人物、景观等,不同的乐高作品相互组合,又能为爱好者带来新的创意。 我们把思路打开一点,在大模型(LLM)爆发的当下,我们能不能像拼积木一样,把不同的模型搭建起来,而不会影响原来模型的功能,...
-
当LLM学会左右互搏,基础模型或将迎来集体进化
金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。 进入现今的大模型 (LLM ...
-
语言模型是如何感知时间的?「时间向量」了解一下
语言模型究竟是如何感知时间的?如何利用语言模型对时间的感知来更好地控制输出甚至了解我们的大脑?最近,来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明,时间变化在一定程度上被编码在微调模型的权重空间中,并且权重插值可以帮助自定...
-
文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费
“发光的水母从海洋中慢慢升起,”在 Morph Studio 中继续输入想看到的景象,“在夜空中变成闪闪发光的星座”。 几分钟后,Morph Studio 生成一个短视频。一只水母通体透明,闪闪发光,一边旋转着一边上升,摇曳的身姿与夜空繁星相映成趣。...
-
看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令
用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比 PS 大神抓着你的手助你 P 图。 在使用大型语言模型(LLM...
-
谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打
火爆全网的斯坦福炒虾机器人,一天之内人气暴涨。 毕竟这样能炒菜能洗碗的全能机器人,谁不想带一个回家,把自己从家务中解放出来呢! 据说,这个项目是斯坦福华人团队花了三个月的时间做出来的。 今天,团队直接放出了更多细节。 这个机器人的技能多种多样,令人眼...
-
科学期刊将引入AI工具Proofig检测图片欺诈
日前,科学期刊Science宣布其所有期刊将开始使用商业软件,自动检测不当篡改的图像。 Science称,他们的所有期刊将开始使用商业软件 Proofig,以自动检测被不适当操控的图像。这一决定被认为是一项重要的举措,旨在防范科学研究中的欺诈行为,尤其是图...
-
LeCun自曝曾因工资太低拒绝谷歌Offer!如果自己加入,会让谷歌研究文化更开放
图灵三巨头之一的LeCun,本来可以入职谷歌,甚至让它更开放? 最近,LeCun在网上分享出的这段陈年往事,让许多人大呼意外。 2002年,他拒绝了去谷歌当研究总监 原来,2002年1月,LeCun曾收到拉里·佩奇的邀请,去谷歌当研究主管。 不过,考虑...
-
科学家称AI存在5%的概率导致人类灭绝
在最新一项对人工智能研究者的调查中,科学家们普遍认为,超级人工智能的可能发展存在导致人类灭绝的非微不足道的风险,然而在这一问题上存在广泛的分歧和不确定性。 这一发现来自对2700名近期在六个顶级AI会议上发表论文的研究者进行的调查,这是迄今为止最大规模的A...
-
室温超导有续集?中国团队再次证明LK-99可能存在迈斯纳效应,论文刚刚上传
一篇室温超导论文,再次掀起了互联网的小小波动。 在最新的一篇论文中,作者们再次证明了室温下铜取代铅磷灰石(LK-99)中可能存在迈斯纳效应。 论文链接:https://arxiv.org/pdf/2401.00999.pdf 在室温下,用铜取代的铅磷灰...
-
李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了
AR/VR 、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易,因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman 和 NeuMan 等方法都取得了令人瞩目的成绩。尽管只有一个摄...
-
让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更...
-
ChatGPT在儿科疾病诊断中错误率高达83%
发表在《美国医学会儿科杂志》上的一项研究表明,ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%,较去年一般医学病例的39%更低。 这一低成功率显示出人类儿科医生在短时间内不太可能失业的现实,研究强调了临床经验在医学领域的不可替代性。研究人员指出...
-
面部图像修复突破性AI方法Dual-Pivot Tuning 实现人脸模糊变高清
图像修复一直是一个备受研究者关注的复杂挑战,其主要目标是在维持降质输入的感知质量的同时,创建视觉上吸引人且自然的图像。在没有有关主题或降质的信息的情况下(盲目恢复),了解自然图像范围至关重要。为了恢复面部图像,必须在确保输出保留个体独特面部特征之前包含身份...
-
黑客解锁特斯拉自动驾驶系统的“隐藏模式”
在近日举行的混沌计算大会上,来自柏林工业大学的三名网络安全研究人员演示了如何通过“电压故障攻击”成功破解特斯拉的自动驾驶系统,不但能获取系统和用户敏感数据,而且解锁了特斯拉自动驾驶的隐藏模式——“Elon模式”。 特斯拉自动驾驶的隐藏模式——“Elon...
-
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
如今,GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。 然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。 国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案,可...
-
AI识别出地震先兆信号?机器学习发现数据神秘关联,人类有望预测地震
最近一段时间,世界各地地震频发。 就在1月1日,日本突发里氏7.6级的地震,随后陆续有灾情传出。据统计,目前至少已有62人死亡。 而下面这个问题,也再一次被提起:人类究竟什么时候能及时预测地震呢? 别急,已经在进步了。 现在,在用AI和其他技术及时预测...
-
高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备
在虚拟现实、增强现实、游戏和人机交互等领域,经常需要让虚拟人物和屏幕外的玩家互动。这种互动是即时的,要求虚拟人物根据操作者的动作进行动态调整。有些互动还涉及物体,比如和和虚拟人物一起搬动一把椅子,这就需要特别关注操作者手部的精确动作。智能、可交互的虚拟人...
-
百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万
文心一言用户规模破1亿,飞桨的开发者数量达到1070万。 只用短短两个月,文心大模型4.0整体效果又提升了32%。 2023年12月28日,在刚刚过去的 WAVE SUMMIT+2023深度学习开发者大会上,百度揭幕了文心大模型与深度学习平台飞桨的一系列新...
-
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其...
-
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。 自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。 如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在...
-
文生视频下一站,Meta已经开始视频生视频了
文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...
-
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉
大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。 幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员...
-
谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。 Gemini的推理能力,真的比GPT-4弱吗? 此前,谷歌憋出的重磅复仇神器Gemini P...
-
《我的世界》化身AI小镇,NPC居民角色扮演如同真人
注意看,这个方块人正在快速思考面前几位“不速之客”的身份。 原来她是遇到了危险,意识到这一点之后,她马上开始在脑海中搜索策略。 最终,她的方案是先逃跑然后寻求帮助,并马上付诸行动。 与此同时,对面的人也在进行着和她一样的思考…… 这样的一幅场景出现...
-
脑机结合时代即将到来 人类文明将会飞速发展
作者 | 洪涛、奥托·麦克 作者均为美国佐治亚理工学院博士后 人类历史上,每一次重大的技术革命,都会引发对人类自身乃至整个社会的冲击;脑机接口(BCI 也一样,对人类社会来说,这门高新科技将会引发一场新的社会变革的风暴。正如国际知名学者周海中先生1995...
-
微软推出AI助手Copilot的正式版本;ChatGPT:七位研究人员分享他们的观点
? AI新闻 ? 微软推出AI助手Copilot的正式版本 摘要:微软宣布其AI助手Copilot正式上线,此前Copilot的预览版已成为很多用户的日常AI伴侣。此次上线后,Copilot将继续提供AI驱动的网络聊天体验,并具备商业数据保护功能,...
-
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
ChatGPT变笨新解释:世界被AI改变,与训练时不同了
对于ChatGPT变笨原因,学术界又有了一种新解释。 加州大学圣克鲁兹分校一项研究指出: 论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种AI拥有零样本或少样本能力的错误印象。 也有学者从另一个角度指出,大模型训练...
-
数字魔法AI绘画的艺术奇迹-用Stable Diffusion挑战无限可能【文末送书-12】
文章目录 前言 一. 技术原理 1.1 发展历程 二.对艺术领域的影响 三. 挑战与机遇 四.AI魔法绘画:用Stable Diffusion挑战无限可能【文末送书-12】 4.1 粉丝福利:文末推荐与福利免费包邮送书! 前言 随...
-
盘古智能体(Pangu-Agent)的五个创新点
随着大规模语言模型(Large Language Model,LLM)的发展和应用,人工智能领域出现了一种新的研究方向,即基于LLM的自主智能体(LLM-based Autonomous Agent)。这种智能体利用LLM的强大的表示能力和生成能力,可以...
-
这次重生,AI要夺回网文界的一切
重生了,这辈子我重生成了 MidReal。一个可以帮别人写「网文」的 AI 机器人。 这段时间里,我看到很多选题,偶尔也会吐槽一下。竟然有人让我写写 Harry Potter。拜托,难道我还能写的比 J・K・Rowling 更好不成?不过,...
-
谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构
在大模型领域,一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。 这个挑战者就是一项名为「Mamba」的研究,其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,Mamba-3B 模...
-
Midjourney V6 引爆社交媒体,AI图像与照片的差别消失;LangChain的2023AI发展状况总结
? AI新闻 ? Midjourney V6 引爆社交媒体,AI图像与照片的差别消失 摘要:Midjourney V6 第二次社区评价震惊网友,神图细节逼真,光影效果逆天,皮肤质感细腻,已超越昨日版本。V6即将上线,预计在圣诞节前发布。其出图质量让...
-
大模型被偷家!CNN搞多模态不弱于Transfromer(腾讯&港中文)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。 切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越SO...
-
快手开源KwaiAgents系统 性能超越GPT-3.5
近日,快手联合哈尔滨工业大学成功开源了「KwaiAgents」系统,实现了7B/13B模型的超越效果。这一成果的背后,是通过Meta-Agent Tuning(MAT)方法提升大模型的通用能力。整个项目包含了系统、模型、以及评测三个方面的内容,并通过Git...
-
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
大型语言模型 (LLM 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选...
-
大模型+机器人,详尽的综述报告来了,多位华人学者参与
大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。 预训练的大型语言模型(LLM)、大型视觉 -...
-
【IT资讯速递】小易智联发布法律领域ChatGPT;新华社研究院发布国产大模型报告,讯飞星火、百度文心一言分列 TOP 2;ChatGPT每日烧钱约70万美元 OpenAI或已在破产边缘
2023年8月14日 星期一 癸卯年六月廿八第000003号 本文收录于IT资讯速递专栏,本专栏主要用于发布各种IT资讯,为大家可以省时省力的就能阅读和了解到行业的一些新资讯 IT资讯速递 小易智联发布法律领域ChatGPT—...
-
华为诺亚的盘古Agent来了,让智能体学会结构化推理
自 AI 诞生以来,开发能够解决和适应复杂工作的多任务智能体(Agent)一直是个重要的目标。 AI 智能体对于许多应用至关重要,研究者通常用强化学习方法通过环境交互来培养智能体的决策技能。基于模型和无模型的深度强化学习方法都已取得了广为人们所知的成就,...
-
大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好
如你我所见,大语言模型(LLM)正在改变深度学习的格局,在生成人类质量的文本和解决各种语言任务方面展现出了卓越的能力。虽然业界通过对人类收集的数据进行监督微调进一步提升了在具体任务上的性能,但获取高质量人类数据却面临着重大瓶颈。这对于要解决复杂问题的任务...
-
挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多...
-
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。 近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
大模型被偷家!腾讯港中文新研究修正认知:CNN搞多模态不弱于Transfromer
在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。 腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。 切换到点云、音频、视频等其他模态,也无...
-
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。 生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图...
-
测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
测试时领域适应(Test-Time Adaptation)的目的是使源域模型适应推理阶段的测试数据,在适应未知的图像损坏领域取得了出色的效果。然而,当前许多方法都缺乏对真实世界场景中测试数据流的考虑,例如: 测试数据流应当是时变分布(而非传统领域适应中...
-
史上最快3D数字人生成器:半小时完成训练,渲染仅需16毫秒,苹果出品
之前要两天才能训练好的数字人,现在只用半小时就能完成了! 到了推理阶段,更是只要16毫秒,就能得到动作流畅、细节到位的场景视频。 而且无需复杂的采样和建模,只要随便拍一段50-100帧的视频就足够了,换算成时间不过几秒钟。 这正是由苹果联合德国马普所推出...
-
LLaMA系列模型
1.LLama 1.1 简介 Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA 2023年2月,Meta(原Facebook)推出了LLaMA大模型,使用了1.4...
-
浙大“北极熊毛衣”登Science,保温效率达羽绒服5倍
最近,一波又一波寒潮接踵而至,羽绒服成了人们过冬的必备物品。 而浙大研制了一种新型材料,不仅保暖而且比羽绒服更轻薄耐用,论文已经登上了Science。 它模仿了北极熊毛的结构,仅用五分之一的厚度,就能达到和羽绒一样的保暖效果。 图片 这款“北极熊毛材料”...