-
大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了
我们人类可能要养不起AI了! 近日,来自MIT FutureTech的研究人员发表了一项关于大模型能力增长速度的研究, 结果表明:LLM的能力大约每8个月就会翻一倍,速度远超摩尔定律! 论文地址:https://arxiv.org/pdf/2403.0...
-
一键点、万物动! 腾讯混元联合清华、港科大推出图生视频大模型“Follow Your Click”
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 3月15日,腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原...
-
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
全球首个开源的类Sora架构视频生成模型,来了! 整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。 这就是刚刚发布的Open-Sora 1.0。 它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。 还能用航拍视角,展现悬崖海岸边,海水...
-
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模...
-
Stable Diffusion 3更多隐藏功能曝光:文字可更改图片细节
白交 丰色 发自 凹非寺量子位 | 公众号 QbitAI Stable Diffusion 3,它终于来了! 足足酝酿一年之多,相比上一代一共进化了三大能力。 来,直接上效果! 首先,是开挂的文字渲染水平。 且看这黑板上的粉...
-
苹果大模型MM1入场:参数达到300亿 超半数作者是华人
苹果公司最新发布了一款名为MM1的大型多模态基础模型,拥有300亿参数,采用了MoE架构,并且超过一半的作者是华人。该模型在多模态领域具有重要意义,可能预示着苹果未来推出与此相关的产品。 今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这...
-
进一步加速落地:压缩自动驾驶端到端运动规划模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving 论文链接:ht...
-
Stable Diffusion 3 震撼发布,采用Sora同源技术,生成图像、视频真假难辨!
ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 ============== Stable Diffusion 3...
-
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力
合成数据持续解锁大模型的数学推理潜力! 数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。 近日,一项由 Swin-Transformer 团队打造,来自西安交通...
-
端到端没有数据怎么办?ActiveAD:面向规划的端到端自动驾驶主动学习!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 自动驾驶的端到端可微学习最近已成为一种突出的范式。一个主要瓶颈在于其对高质量标记数据的巨大需求,例如3D框和语义分割,这些数据的手动注释成本是出了名的昂贵。由于AD中样本内的行为往往存在长尾分布这一...
-
3DGStream:快速训练,200 FPS实时渲染逼真场景!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 从多视角视频构建动态场景的照片逼真的自由视角视频(FVV)仍然是一项具有挑战性的工作。尽管当前的神经渲染技术取得了显著的进步,但这些方法通常需要完整的视频序列来进行离线训练,并且无法实时渲染。为了解决...
-
AI 图片橡皮擦来了!概念半透膜模型SPM实现精准擦除特定内容,还能改头换面
清华大学与阿里安全联合发布了概念半透膜模型(SPM),这一模型能够在 Diffusion 架构的 AI 作图模型中,精准、可控地擦除各类具象或抽象概念。 该模型的推出解决了传统 AI 作图模型存在的生成涉黄、侵权等危险概念的问题,实现了对特定概念的精确擦除...
-
颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源
DiT作为效果惊艳的Sora的核心技术之一,利用Difffusion Transfomer 将生成模型扩展到更大的模型规模,从而实现高质量的图像生成。 然而,更大的模型规模导致训练成本飙升。 为此,来自Sea AI Lab、南开大学、昆仑万维2050...
-
谷歌“窃取”GPT-3.5模型关键信息:成本低至150元,调用API即可得手
谷歌最新研究揭示了一种攻击大型语言模型的方法,成功窃取了OpenAI GPT-3.5-turbo模型的关键信息。根据谷歌的声明,他们不仅还原了OpenAI大模型的整个投影矩阵,还获得了确切的隐藏维度大小,而这一切只需不到2000次巧妙的API查询,成本低至...
-
Apollo开源轻量级多语言医疗 LLM:助力将医疗 AI 民主化推广至60亿人口
医疗人工智能(AI)技术正在迅速发展,旨在利用大型语言模型(LLMs 的巨大潜力彻底改变医疗保健交付方式。这些技术进步承诺提高诊断准确性,个性化治疗方案,并解锁全面医学知识的获取,从根本上改变患者护理。将 AI 整合到医疗保健中旨在提高医疗服务的效率和精确...
-
浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显
基于大模型的Agent,已经成为了大型的博弈游戏的高级玩家,而且玩的还是德州扑克、21点这种非完美信息博弈。 来自浙江大学、中科院软件所等机构的研究人员提出了新的Agent进化策略,从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。 通过不断...
-
AI绘画中VAE压缩图像
介绍 在Stable Diffusion中,所有的去噪和加噪过程并非在图像空间直接进行,而是通过VAE模块将图像编码到一个低维空间。 这个低维空间的“分辨率”低于原始图像空间,有利于快速地完成加噪和去噪过程。 最后再将编码空间中的噪声表示解码恢复为...
-
陶哲轩预测再成真!AI做出椭圆曲线难题重大发现,华人数学家接近千禧年大奖
用AI研究数学领域,最近又有重大发现了。 这次数学家们用AI发现的,是椭圆曲线中的murmuration(椋鸟群飞)现象。 他们发现,如果以正确的方式观察,在椭圆曲线中会出现像飞行中的椋鸟群一般的图案。 现在,murmuration相关研究已经轰动了数...
-
华人CV宗师黄煦涛高徒离职特斯拉,加入OpenAI!专攻多模态模型研究
OpenAI又迎来一位AI大将。 最近,华人科学家程博文官宣离职特斯拉,即将加入OpenAI专攻多模态模型的研究。 图片 今天是我在特斯拉自动驾驶部门的最后一天,这一年半的经历真的很棒:有机会与才华横溢的同事们共事,学习了如何开发出色的产品等等。但我向通...
-
谷歌工程师硬核长篇预测,证实黄仁勋观点:AGI或在2029年出现,AI五年内通过人类测试
最近,英伟达CEO黄仁勋表示,AI会在五年内通过人类测试,AGI将很快到来! 在斯坦福大学举行的一个经济论坛上,黄仁勋回答了这个问题:人类何时能创造像人类一样思考的计算机? 这也是硅谷的长期目标之一。 老黄是这样回答的:答案很大程度上取决于我们如何定义...
-
让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%
对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。 不过,这个极限究竟有多大? 清华大学和哈工大的一项联合研究给出的答案是: 90%。 他们提出了大模型1bit极限压缩框架OneBit,首次实现大模型权重压缩超越90%并保留大部分(83%)能力...
-
==探析js px cms采 集 插件的优势和应用
= = === = ==== == ===...
-
AIGC图像技术在淘宝人生2的探索和应用
淘宝人生2(又名:第二人生)是淘宝的一个虚拟人装扮类应用,承担了用户在淘宝的第二个人生的作用。我们旨在通过AI为淘宝人生2的用户提供丰富有趣的可玩性内容,随着最近火热的AIGC技术的发展,我们也进行了相关尝试和落地,目前已经上线了AI拍照...
-
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
上个月,Meta FAIR 田渊栋参与的一项研究广受好评,他们在论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10...
-
OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 对3D场景的全面理解在自动驾驶中至关重要,最近的3D语义占用预测模型已经成功地解决了描述具有不同形状和类别的真实世界物体的挑战。然而,现有的3D占用预测方法在很大程度上依赖于全景相机图像,这使得它们容...
-
ADMap:抗干扰在线高精地图新思路
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大家好,很开心能够受邀来到自动驾驶之心分享我们的在线重建矢量化高精度地图的抗扰动方法ADMap。我们的代码已经发布在https://github.com/hht199...
-
研究人员推新AI框架CyberDemo:通过视觉观察让机器人模仿学习
加利福尼亚大学圣地亚哥分校(UCSD)和南加利福尼亚大学(USC 的研究人员最近推出了一种名为 CyberDemo 的新型人工智能框架,旨在通过视觉观察进行机器人模仿学习。 传统的模仿学习方法通常需要大量高质量的示范数据来教导机器人完成复杂任务,特别是对...
-
全球最强模型Claude 3颠覆物理/化学!2小时破解博士一年实验成果,网友惊呼:科研不存在了
Claude 3,还在不断创造奇迹。 发布还没几天,就有越来越多的博士发现,自己手里还没发表过的研究成果,居然都被Claude 3给破解了?! 化学博士发现,自己要做一年实验的研究,Claude 3俩小时就给出了方案,还比原方案更简洁,而且成本只花5美...
-
开环端到端自动驾驶中自车状态是你所需要的一切吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? 论文链接:https://arxiv.org/a...
-
使用纹理对比度检测检测AI生成的图像
在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像。 大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法,或者取决于图像的性质/语义,其中模型只能检测人工智能生成的人、脸、汽车等特定对象。 但是这篇论文“Rich an...
-
Claude 3成功破解未公开算法?智商测试101分超越人类/碾压GPT-4!网友惊呼:实测比跑分还强
Claude 3上线之后,网友开始疯狂测试,实测效果确实惊人。 不少网友体感Claude 3超大杯确实强,实测已经达到了博士水平: 这实在太疯狂了!Claude是唯一理解我的量子物理学博士论文的「人」! 60亿人中只有他懂你的感觉,直接给这位网友干崩溃...
-
又给Sora“找茬” LeCun放出「视觉世界模型」论文:这才是AI学习物理世界的关键
LeCun在「视觉世界模型」论文中详细介绍了世界模型在AI学习物理世界中的关键作用。他指出,世界模型相比自回归学习范式能更好地理解世界,掌握物理世界的关键。 论文地址:https://arxiv.org/pdf/2403.00504.pdf 这篇论文着重...
-
室温超导新瓜!LK-99团队展示全新材料完全悬浮及电阻测量结果,报告现场人挤人
室温超导LK-99,又有新瓜可尝了。 万众期待之下,LK-99作者之一的金铉卓教授,刚刚在美国物理学会三月会议(APS March Meeting)上带来全新报告。 主题很简单,就是最新材料配方以及室温超导的证据。 热度之高,据网友现场传回的消息,是“晚...
-
Claude3给GPT4上了一课!Open AI最强对手深夜炸弹,附全图解析!
出品 | 51CTO技术栈(微信号:blog51cto) 深夜,OpenAI最强对手Anthropic一口气发布了三个SOTA新品,其中包括:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。业界惊呼:Clau...
-
Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)
原标题:Anything in Any Scene: Photorealistic Video Object Insertion 论文链接:https://arxiv.org/pdf/2401.17509.pdf 代码链接:https://github....
-
CVPR2024|AIGC(图像生成,视频生成等)相关论文汇总(附论文链接/开源代码/解析)【持续更新】
CVPR2024|AIGC相关论文汇总(如果觉得有帮助,欢迎点赞和收藏) Awesome-CVPR2024-AIGC 1.图像生成(Image Generation/Image Synthesis ECLIPSE: A Resource-E...
-
马斯克用微软论文当论据起诉OpenAI:你们自己早承认AGI了
大概也只有马斯克敢了。 用微软论文当证据,起诉OpenAI。 一年前微软研究院发表的论文《Sparks of AGI:Early experiments with GPT-4》,现在成为了马斯克起诉书中的关键角色。 这篇论文通过分析早期GPT-4的能力,...
-
逆天UniVision:BEV检测和Occ联合统一框架,双SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&个人理解 最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在差距,这对统一高效的3D感知...
-
两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
只需2张图片,无需测量任何额外数据—— 当当,一个完整的3D小熊就有了: 这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。 有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟! (除了3D图,...
-
Beeble AI与纽约大学合作 发布创新的人像重照明技术SwitchLight
近日,Beeble AI与纽约大学联手发布了一项新的研究成果,一种创新的人像重照明技术。这项技术能够在非常低的成本下,将人物与虚拟环境的光照完美融合,效果令人印象深刻。 论文地址:https://arxiv.org/pdf/2402.18848.pdf...
-
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
图神经网络(GNNs)擅长利用图的结构信息进行推理,但它们通常需要特定于领域的调优才能达到峰值性能,这阻碍了它们在不同任务之间的泛化性。 相比之下,基于大型语言模型(LLM)的图推理具有更强的跨任务和泛化能力,但它们在特定任务上的性能往往逊色于专用的图...
-
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目...
-
清华、哈工大提出OneBit方法:可把大模型压缩到1bit 保持 83% 性能
近期,清华大学和哈尔滨工业大学联合发布了一篇论文,成功将大模型压缩到1bit,仍保持83% 的性能。这一成果标志着量化模型领域的一次重大突破。过去,2bit 以下的量化一直是研究人员难以逾越的障碍,而这次的1bit 量化尝试,引起了国内外学术界的广泛关注。...
-
北大具身智能成果入选CVPR'24:只需一张图一个指令,就能让大模型玩转机械臂
只靠一张物体图片,大语言模型就能控制机械臂完成各种日常物体操作吗? 北大最新具身大模型研究成果ManipLLM将这一愿景变成了现实: 在提示词的引导下,大语言模型在物体图像上直接预测机械臂的操作点和方向。 进而,得以操控机械臂直接玩转各项具体的任务: 例...
-
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
视觉AIGC识别——人脸伪造检测、误差特征 + 不可见水印 前言 视觉AIGC识别 【误差特征】DIRE for Diffusion-Generated Image Detection 方法 扩散模型的角色 DIRE作为检测指标 实验结果...
-
万字长文!AIGC 时代数字图像水印的进展与实践 | 新程序员
【导读】数字水印是信息安全领域的新技术,用于保护数据的保密性和完整性。传统方法基于信号处理、信息论和密码学原理,分为空域和变换域方法。本文介绍了数字图像水印的发展与实践,包括定义和追求、传统数字水印方法、深度学习水印方法以及生成图像水印方法。文章还讨论了水...
-
对抗「概念飘逸」难题!谷歌发布全新时间感知框架:图像识别准确率提升15%
在机器学习领域,概念漂移(concept drift)问题长期困扰着研究者,即数据分布随时间发生变化,使得模型难以持续有效。 一个显著的例子是CLEAR非稳态学习基准的图像展示,它揭示了物体视觉特征在十年间发生的显著变化。 这种现象被称为「缓慢的概念漂移...
-
英伟达发布Nemotron-4:150亿参数通用大模型,目标单张A100/H100可跑
英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数,经过在8T token上的训练,在英语、多语言和编码任务中表现出色。具体而言,Nemotron-4在7个评估基准上的15B模型表现优异,超越同等参数规模的模型,甚至击...
-
金融分析多模态LLM FinTral:基于Mistral-7B模型 得分接近GPT-4
近日,来自不列颠哥伦比亚大学和Invertible AI的研究人员推出了一款具有突破性的大型语言模型(LLM)——FinTral,专为金融领域量身定制。FinTral采用了多模态方法,能够处理文本、数字、表格和视觉数据,以应对金融文件的复杂性。该模型引入了...
-
Kernel-CF:推荐系统的最优召回策略
作者 | 汪昊 审校 | 重楼 推荐系统自诞生以来广受关注,尤其是互联网领域,推荐系统已经成为了给企业下金蛋的白鹅。我们来算一笔账,假设我们公司推荐产品的日 PV 是500 万,推荐系统让用户点击率提升了1%, 也就是一天增加了5 万 PV。Google...