-
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
从 BERT、GPT 和 Flan-T5 等语言模型到 SAM 和 Stable Diffusion 等图像模型,Transformer 正以锐不可当之势席卷这个世界,但人们也不禁会问:Transformer 是唯一选择吗? 斯坦福大学和纽约州立大学布法...
-
更高清写实的人体生成模型HyperHuman来了,基于隐式结构扩散,刷新多项SOTA
论文地址: https://arxiv.org/pdf/2310.08579.pdf Github 地址: https://github.com/snap-research/HyperHuman 1. 研究背景与动机 随着扩散模型的兴起,一些典型...
-
首个人体动捕基模型面世!SMPLer-X:横扫七大榜单
人体全身姿态与体型估计(EHPS, Expressive Human Pose and Shape estimation)虽然目前已经取得了非常大研究进展,但当下最先进的方法仍然受限于有限的训练数据集。 最近,来自南洋理工大学S-Lab、商汤科技、上海人...
-
GPT4教机器人盘转笔,那叫一个丝滑!
那个在聊天中给数学家陶哲轩带来启发的GPT-4,最近又开始教机器人转笔了。 项目叫Agent Eureka,是由英伟达、宾州大学、加州理工学院和得克萨斯大学奥斯汀分校联手研发的。他们的研究结合了 GPT-4 结构的能力和强化学习的优势,让 Eureka...
-
多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生
还在用指令微调解决多模态大模型的“幻觉”问题吗? 比如下图中模型将橙色柯基错认为“红狗”,还指出周围还有几条。 图片 现在,中科大的一项研究想到了一个全新办法: 一个免重训、即插即用的通用架构,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处...
-
港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构
图神经网络(Graph Neural Networks)已经成为分析和学习图结构数据的强大框架,推动了社交网络分析、推荐系统和生物网络分析等多个领域的进步。 图神经网络的主要优势在于它们能够捕获图数据中固有的结构信息和依赖关系。利用消息传递和聚合机制,图...
-
陶哲轩论文漏洞竟被AI发现,,看定理名猜出研究方向,大神直呼AI能力惊人
最近,热衷于用GPT-4、Copilot做研究的数学大神陶哲轩,又在AI的帮助下发现了自己论文中的一处隐藏bug! 陶哲轩表示,自己在用Lean4形式化第6页论点的过程中发现,表达式在n=3,k=2时,实际上是发散的。 这个不太容易看出的bug能被及时...
-
AI视野:百度开放文心4.0开发权限申请;腾讯混元大模型开放文生图功能;谷歌AI应用禁止生成受限内容;Midjourney新网站上线测试版
????大模型动态 百度开放文心4.0开发权限申请 在2023年百度世界大会上,百度发布了文心大模型4.0,提升了理解、生成、逻辑、记忆等四个方面,现在开发者可以申请使用 ERNIE Bot SDK 开发与接入该模型的应用。 申请地址:https://a...
-
五个优秀开源RPA框架
这两年,RPA+AI(智能自动化流程)经常被提及,在企业/机构数字化转型过程中,自动化和智能化是提升效能的重要方式,而迈向自动化和智能化的第一步则是机器人流程自动化(RPA)。 什么是RPA?什么是RPA+AI? 如果把RPA比作人的躯干神经,那么AI...
-
数字人+AI换脸简单实现虚拟制片
概述 本文将从零开始介绍如何创造并驱动数字人,最后通过AI换脸实现虚拟制片。效果如下: 数字人驱动 换脸憨豆先生 数字人简介 数字人(Digital Human / Meta Human),是运用数字技术创造出来的、与人类形象接近的数字化人物形象。数字人...
-
微软AI战略在使得云收入方面显著增长
微软AI战略在云收入增长方面取得了显著成就。最新的财季报告显示,微软的AI战略提前实现了预期的收入增长,为公司带来了稳健的云业务收入。 财报显示,微软的第一财季收入同比增长了13%,达到565亿美元,较去年的501亿美元有所增长。净收入同比增长了27%,从...
-
用于自动驾驶赛车的多模态传感器融合和目标跟踪
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Multi-Modal Sensor Fusion and Object Tracking for Autonomous Racing 论文链接:https://arxiv.org/pdf/23...
-
AI视野:高通发布骁龙X Elite芯片;AutoGPT获1200万美元融资;AI社交产品Airchat火了;百度Comate智能代码助手上线SaaS版本
???AI新鲜事 高通发布骁龙X Elite芯片 电脑可运行130亿参数大模型 高通发布骁龙X Elite芯片,成为全球性能最强的CPU,能在PC上运行130亿参数的大模型,实现离线AI应用。 爆火智能体项目AutoGPT获1200万美元融资 Auto...
-
超1. 8万家公司使用Azure OpenAI服务,Copilot付费用户达100万
微软董事长兼首席执行官Satya Nadella日前表示,超过18,000家组织正在使用Azure OpenAI服务,其中包括新客户,微软正通过OpenAI API扩展其数字化首选公司的服务。这一消息是在公司2023财年第一季度业绩电话会议上宣布的。 图...
-
适合初学者的一些常用的机器学习库
在人工智能项目开发的过程中,我们通常会使用到很多机器学习、深度学习框架、各种数据处理库和一些工具。好用的库很多,但对于初学者来说先聚焦在一些比较常用的框架、库或者工具,有利于提高效率。下面主要分享一些常用的人工智能相关的内容,包括:模型训练、数据处理、参...
-
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
继火爆全网的AI文生图,文生视频之后,文生3D场景的技术也来了! 只要不到30个字的提示词,瞬间就能生成这样的3D场景。 场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面,倒映出无云的天空,周围的山和水鸟的倒影呈现在湖中。」 「烈日照耀在无垠...
-
UniPAD:自动驾驶通用预训练范式来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 UNIPAD:自动驾驶通用预训练范式 原标题:UNIPAD: A UNIVERSAL PRE-TRAINING PARADIGM FOR AUTONOMOUS DRIVING 论文链接:https:/...
-
最高20倍!压缩ChatGPT等模型文本提示,极大节省AI算力
在长文本场景中,ChatGPT等大语言模型经常面临更高算力成本、更长的延迟以及更差的性能。为了解决这三大难题,微软开源了LongLLMLingua。 据悉,LongLLMLingua的核心技术原理是将“文本提示”实现最高20倍的极限压缩,同时又可以准确评估...
-
陶哲轩疯狂安利Copilot:它帮我完成了一页纸证明,甚至能猜出我后面的过程
继给GPT-4“代言”之后,Copilot也被陶哲轩疯狂安利。 他直言,在编程时,Copilot能直接预测出他下一步要做什么。 有了Copilot之后,研究做起来也更方便了,陶哲轩也用它辅助自己完成了最新的研究成果。 陶哲轩说,这次的论文中,有关这一部...
-
让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%
大模型“识图”能力都这么强了,为啥还老找错东西? 例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有鱼类…… 这是因为,我们让大模型“找东西”时,往往输入的是文本。 如果描述有歧义或太偏门,像是“bat”(蝙蝠还是拍子?)或“魔鳉”(Cy...
-
深度学习科研,如何高效进行代码和实验管理?
回答一 作者:叶小飞 链接:https://www.zhihu.com/question/269707221/answer/2281374258 我之前在北美奔驰落地时,曾有段时间为了测试不同的结构和参数,一周能训练一百来个不同的模型,为此我结合公司前...
-
「解释一切」图像概念解释器来了,港科大团队出品
你是否好奇当一个黑盒深度神经网络 (DNN 预测下图的时候,图中哪个部分对于输出预测为「击球手」的帮助最大? 香港科技大学团队最新的 NeurIPS2023 研究成果给出了他们的答案。 论文:https://arxiv.org/abs/2305....
-
清华新研究解密信息茧房!全新信息动力学理论,登Nature子刊
新一代信息与智能技术的迅猛发展推动着人类逐步迈入智能社会。在数字技术和智能推荐算法的加持下,媒体和平台越来越贴心,总是能最快最准的地契合人们的个性化偏好和需求。 然而,与此同时,智能精准推荐致使「信息茧房」现象不断发酵,观点相似的人群在网络空间组成团体,...
-
你的GPU能跑Llama 2等大模型吗?用这个开源项目上手测一测
在算力为王的时代,你的 GPU 可以顺畅的运行大模型(LLM)吗? 对于这一问题,很多人都难以给出确切的回答,不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易,在推理期间(KV 缓存)模型会占用大量内存,例...
-
仅五个字符的新绘图语言火了,ChatGPT都学会了
只用五个字符,就能完成一幅像素画的绘制了。 这是一种新的绘图语言,一共支持8种颜色,画幅可达256*256。 它包含了“CFR[]”这五个符号,因此名字也就叫CFR[]了,主打的就是一个直观。 而且CFR[]免费开源,无需部署安装,在线就能体验。 虽然...
-
免费开源AI视频工具VideoCrafter:输入文本轻松生成高质量视频
VideoCrafter是一款全新的开源视频创建和编辑套件,采用了扩散模型,能够从文本描述生成照片和视频逼真的输出。 尽管尚未正式发布,但VideoCrafter有望显著改变视频制作流程。使用VideoCrafter,即使没有视频编辑或动画经验的人也可以轻...
-
AI视野:星火大模型V3.0发布;B站测试推出“AI视频总结”功能;高通发布骁龙8Gen3;苹果计划每年砸10亿美元搞AI
????大模型动态 科大讯飞星火认知大模型V3.0正式发布 在今日的2023科大讯飞全球1024开发者节上,科大讯飞宣布,讯飞星火认知大模型V3.0正式发布,目前星火大模型已整体超越ChatGPT。 ???AI应用 B站测试推出“AI视频总结”功能 近日...
-
GPT-4教会机器手转笔、玩魔方!RL社区震惊:LLM设计奖励竟能超越人类?
GPT-4,竟然教会机器人转笔了! 图片 英伟达、宾大、加州理工、德州奥斯汀等机构的专家提出一个开放式Agent——Eureka,它是一个开放式Agent,为超人类水平的机器人灵巧性设计了奖励功能。 图片 论文链接:https://arxiv.org/p...
-
亚马逊重新聚焦无人机送货战略,工会组织对可能的裁员潮表示担忧
亚马逊(Amazon 日前发布了一系列新型无人机和机器人,并声称它们将帮助公司“交付未来”。但行业专家为此警告说,在自动配送和人工智能驱动的物流成为常态之前,亚马逊还需要突破基础设施及法律规章的限制。同时,亚马逊也需要注意机器代人后引发的裁员潮问题。...
-
AI视频后期制作神器ProPainter 一键即可完成视频抠图
最近,出现了一种新的视频修复技术,叫做ProPainter,它可以用画家风格的笔触来填补视频中的缺失区域。 ProPainter是一个基于深度学习的端到端的网络,它由两个模块组成:Recurrent Flow Completion Network和Pain...
-
英国AI初创公司Harmonic获得700万美元资金
划重点: ? 英国初创公司Harmonic Security成功融资700万美元,旨在构建技术以保障企业生成式AI部署的安全性。 ? Harmonic将开发软件,应对未受监管的AI应用程序采集大规模公司数据的问题。 ? 投资由Ten Eleven Vent...
-
SolidGPT:基于GitHub的AI工具 让代码仓库更智能
在软件开发领域,代码仓库是存储和管理代码的重要工具。然而,随着代码库的增长和复杂性的增加,理解和学习代码变得越来越困难。为了解决这个问题,一款名为SolidGPT的基于GitHub的人工智能工具应运而生。 SolidGPT利用了OpenAI的GPT技术,可...
-
从基础到实践,回顾 Elasticsearch 向量检索发展史
1.引言 向量检索已经成为现代搜索和推荐系统的核心组件。 通过将复杂的对象(例如文本、图像或声音)转换为数值向量,并在多维空间中进行相似性搜索,它能够实现高效的查询匹配和推荐。 Elasticsearch 作为一款流行的开源搜索引擎,其在向量检索方面...
-
NVIDIA发布AI系统Eureka:支持机器人编程
快科技10月23日消息,NVIDIA官方消息显示,一款名为 Eureka 的 AI 系统正式发布,该系统以GPT-4提供支持,可以让机器人实现三十多种复杂的动作。 在一次内部评估中,NVIDIA使用Eureka教10个模拟机器人29种不同的动作。 工程师通...
-
一文读懂全新深度学习库Rust Burn
一、什么是Rust Burn? Rust Burn是一个全新的深度学习框架,完全使用Rust编程语言编写。创建这个新框架而不是使用现有框架(如PyTorch或TensorFlow)的动机是为了构建一个适应多种用户需求的通用框架,包括研究人员、机器学习工程...
-
4年百亿估值,国产大模型创业TOP 1,清华造
大模型公司智谱AI,一举宣布了年内融资额:25亿元人民币。 如此数额,什么概念?刷新了国内大模型创业公司的累计融资额,估值超过百亿。 这家成立4年的公司,已经成为国产大模型最具吸金力、最具价值认可的公司。 在百模大战来到见真章的“生成式AI第二阶段”,领头...
-
仅5个字符的新绘图语言火了,ChatGPT都学会了
只用五个字符,就能完成一幅像素画的绘制了。 这是一种新的绘图语言,一共支持8种颜色,画幅可达256*256。 它包含了“CFR[]”这五个符号,因此名字也就叫CFR[]了,主打的就是一个直观。 而且CFR[]免费开源,无需部署安装,在线就能体验。 虽然只...
-
用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手
量子位 | 公众号 QbitAI 训练机器人,AI比人类更拿手! 英伟达最新AI AgentEureka,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任务。 比如,快速转个笔,打开抽屉和柜子、抛球和接球。 尤其是转笔这个技能,要知道靠人类逐...
-
全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。 然而...
-
AI视野:WPS AI宣布接入WPS Mac版;爱奇艺推出AI搜索;苹果计划明年推出生成式AI功能;DALL-E3易受越狱攻击
???AI应用 爱奇艺推出AI搜索 将生成式AI技术应用于剧情搜索等场景 爱奇艺升级AI搜索,区别于传统搜索第一步只能搜到片名,升级后的爱奇艺AI搜索主打让观众在搜索环节便能一键直达心仪内容。 WPS AI 宣布接入 WPS Mac 版 提供内容生成等功...
-
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来,大型多模态模型 (LMM 引起了研究界越来越多的兴趣,许多工作致力于构建多模态...
-
机器人学会转笔、盘核桃了!GPT-4加持,任务越复杂,表现越优秀
大数据文摘出品 家人们,继人工智能(AI)攻占象棋、围棋、Dota之后,转笔这一技能也被 AI 机器人学会了。 上面这个笔转的贼溜的机器人,得益于名叫Eureka的智能体(Agent),是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分...
-
声音揭示健康秘密:新 AI 技术用六秒钟的录音即可诊断出 2 型糖尿病
10 月 22 日消息,一项新的研究发现,只要对着智能手机说几句话,就能用声音诊断出 2 型糖尿病。这项新技术结合了声音技术和人工智能,可以帮助发现数百万未被诊断的 2 型糖尿病患者。这项研究发表在《梅奥诊所进展:数字健康(Mayo Clinic...
-
AMD Ryzen AI 暂仅支持 Windows,Linux 系统有望后续支持
10 月 22 日消息,最新的 AMD Ryzen 7040 系列笔记本电脑配备了基于 Xilinx IP 的专用 AI 引擎,名为“Ryzen AI”,可以加速 PyTorch 和 TensorFlow 等机器学习框架的运行。不过目前这个 Ryz...
-
有了GPT-4之后,机器人把转笔、盘核桃都学会了
在学习方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。 与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。 这个机器人名叫 Eureka,是来自英伟达、宾夕法...
-
Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动
今天开始,人类离帮忙做家务的机器人,又近了一步! Meta宣布推出Habitat 3.0,目的是开发出社会化的AI智能体,这意味着社交智能机器人已经进入新的里程碑阶段。 这些具身智能背后的关键,当然就是AI Agent。有了它们,机器人可以和人类协作...
-
LLaMA2上下文长度暴涨至100万tokens,只需调整1个超参数
只需微调一下,大模型支持上下文大小就能从1.6万tokens延长至100万?! 还是在只有70亿参数的LLaMA 2上。 要知道,即使是当前最火的Claude 2和GPT-4,支持上下文长度也不过10万和3.2万,超出这个范围大模型就会开始胡言乱语、记不...
-
参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了
如今,在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力,可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能,因此更倾向于通用模型。 不过如果想要在某一领域(如医学、金融或科学)内最大限...
-
评论能力强于GPT-4,上交开源13B评估大模型Auto-J
随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。 虽然模型的对齐至关重要,但目前的评估方法往往存在局限性,这也让开发者往往困惑:大模型对齐程度如何?这不仅制约了对齐技术的进一步发展,也引发了...