-
让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider
大语言模型因其强大而通用的语言生成、理解能力,展现出了成为通用智能体的潜力。与此同时,在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此,大语言模型如何适配开放世界是一个重要的研究问题。 北京大学和北京智源人工智能研究院的团队针对这个问题提出了...
-
北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界
北京大学和北京智源人工智能研究院的团队提出了名为LLaMA-Rider的训练框架,旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈-修改机制来实现主动探索,使模型在环境中接收反馈信息,不断调整决策,从而逐渐适应开放环境。 项目...
-
强化学习与多任务推荐
一、短视频推荐两阶段约束强化学习算法 首先介绍的一项快手自研的 WWW 2023 Research Track 工作,主要解决短视频推荐场景下的带约束多目标优化问题。 在短视频推荐单列场景中,用户通过上下滑形式和系统进行交互,观看多个视频。用户对每个...
-
让大模型忘记哈利波特,微软新研究上演Llama 2记忆消除术,真·用魔法打败魔法(doge)
最近微软一项研究让Llama 2选择性失忆了,把哈利波特忘得一干二净。 现在问模型“哈利波特是谁?”,它的回答是这样婶儿的: 木有赫敏、罗恩,木有霍格沃茨…… 要知道此前Llama 2的记忆深度还是很给力的,比如给它一个看似非常普通的提示“那年秋天,哈...
-
大型语言模型(LLM)技术精要,不看亏了
哈喽,大家好。 今天分享一篇知乎高赞文章,作者是张俊林老师。 图片 读完收获很多,能帮大家更好地理解、学习大模型。原文有2.8w字,我提炼了核心要点,阅读需要10min。 ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型(LLM)...
-
CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命
全球首个生成式机器人Agent发布了! 长久以来,相比于语言或者视觉模型可以在大规模的互联网数据上训练,训练机器人的策略模型需要带有动态物理交互信息的数据,而这些数据的匮乏一直是具身智能发展的最大瓶颈。 最近,来自CMU、清华、MIT,UMass等机构的...
-
你应该知道的十种机器学习算法
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 毫无疑问,机器学习/人工智能领域在将来是越来越...
-
特斯拉 Optimus 机器人项目招兵买马,聘请强化学习等领域工程师
11 月 1 日消息,特斯拉正在加速招聘人形机器人项目 Optimus 的工程师,包括一些强化学习方面的专家。 很多人对这个项目并不看好,认为它只是一个噱头。然而,特斯拉却非常认真地推进这个项目。最近,特斯拉展示了 Optimus 的最新原型,表现...
-
使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习
强化学习(RL 是一种机器学习方法,它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励,因采取行动导致预期结果而受到惩罚。随着时间的推移,代理学会采取行动,使其预期回报最大化。 RL代理通常使用马尔可夫决策过程(MDP ...
-
百度王海峰:文心大模型4.0推理性能提升50倍
在近日的第二十届中国计算机大会上,百度首席技术官王海峰表示,百度在3月16日发布知识增强大语言模型文心一言,目前文心一言的基础模型已迭代到文心大模型4.0版本。知识增强大语言模型从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调...
-
最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑
花500刀“调教”的70亿参数模型,打败700亿参数的Llama 2! 且笔记本就能轻松跑,效果媲美ChatGPT。 重点:免费、不要钱。 HuggingFace H4团队打造的开源模型Zephyr-7B,鲨疯了。 其底层模型是前段时间爆火、由有着“欧...
-
GPT4教机器人盘转笔,那叫一个丝滑!
那个在聊天中给数学家陶哲轩带来启发的GPT-4,最近又开始教机器人转笔了。 项目叫Agent Eureka,是由英伟达、宾州大学、加州理工学院和得克萨斯大学奥斯汀分校联手研发的。他们的研究结合了 GPT-4 结构的能力和强化学习的优势,让 Eureka...
-
谷歌20亿美元砸向Anthropic:大模型军备竞赛升级
据华尔街日报、路透社等媒体报道,Alphabet 旗下谷歌公司发言人本周五表示,该公司已同意向人工智能公司 Anthropic 投资至多 20 亿美元(约合 146 亿人民币)。 该发言人表示,该公司已向这个 OpenAI 的重要竞争对手预先投资 5...
-
Datasaur推出LLM实验室,助力企业构建自定义AI应用
San Francisco的AI初创公司Datasaur宣布推出LLM Lab,这是一款全面的工具,旨在帮助企业构建自定义的大型语言模型应用,类似于ChatGPT。LLM Lab可在云端或本地部署,为企业提供构建内部自定义生成式AI应用的起点,同时减少了来...
-
吃“有毒”数据,大模型反而更听话了!来自港科大&华为诺亚方舟实验室
现在,大模型也学会“吃一堑,长一智”了。 来自香港科技大学和华为诺亚方舟实验室的最新研究发现: 相比于一味规避“有毒”数据,以毒攻毒,干脆给大模型喂点错误文本,再让模型剖析、反思出错的原因,反而能够让模型真正理解“错在哪儿了”,进而避免胡说八道。 具体...
-
Anthropic AI 团队研究显示:人工智能倾向于产生迎合用户的奉承性回应而非事实真相
Anthropic 是一家美国的人工智能初创企业和公益公司,由 OpenAI 的前成员创立。Anthropic 专注于开发通用 AI 系统和语言模型,并秉持负责任的 AI 使用理念。Anthropic 开发的 Claude 2 于 2023 年七月推出。...
-
GPT-4教会机器手转笔、玩魔方!RL社区震惊:LLM设计奖励竟能超越人类?
GPT-4,竟然教会机器人转笔了! 图片 英伟达、宾大、加州理工、德州奥斯汀等机构的专家提出一个开放式Agent——Eureka,它是一个开放式Agent,为超人类水平的机器人灵巧性设计了奖励功能。 图片 论文链接:https://arxiv.org/p...
-
英伟达推出 AI 系统 Eureka,可令机器人执行转笔传球等复杂工作
10 月 23 日消息,英伟达日前公布了一个名为 Eureka 的 AI 系统,该系统以 OpenAI 的 GPT-4 为基础,能够让机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等 30 多种复杂动作。 IT之家经过查询得知,英伟达研...
-
用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手
量子位 | 公众号 QbitAI 训练机器人,AI比人类更拿手! 英伟达最新AI AgentEureka,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任务。 比如,快速转个笔,打开抽屉和柜子、抛球和接球。 尤其是转笔这个技能,要知道靠人类逐...
-
机器人学会转笔、盘核桃了!GPT-4加持,任务越复杂,表现越优秀
大数据文摘出品 家人们,继人工智能(AI)攻占象棋、围棋、Dota之后,转笔这一技能也被 AI 机器人学会了。 上面这个笔转的贼溜的机器人,得益于名叫Eureka的智能体(Agent),是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分...
-
有了GPT-4之后,机器人把转笔、盘核桃都学会了
在学习方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。 与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。 这个机器人名叫 Eureka,是来自英伟达、宾夕法...
-
Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动
今天开始,人类离帮忙做家务的机器人,又近了一步! Meta宣布推出Habitat 3.0,目的是开发出社会化的AI智能体,这意味着社交智能机器人已经进入新的里程碑阶段。 这些具身智能背后的关键,当然就是AI Agent。有了它们,机器人可以和人类协作...
-
参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了
如今,在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力,可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能,因此更倾向于通用模型。 不过如果想要在某一领域(如医学、金融或科学)内最大限...