强化学习第9页 - AIGC资讯

华人团队获最佳论文、最佳系统论文，CoRL获奖论文出炉

自 2017 年首次举办以来，CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。CoRL 是面向机器人学习研究的 single-track 会议，涵盖机器人学、机器学习和控制等多个主题，包括理论与应用。 2023 年的 CoRL 大会...

人工智能 2023-11-10 人工智能

802阅读

让AI模型成为GTA五星玩家，基于视觉的可编程智能体Octopus来了

电子游戏已经成为如今现实世界的模拟舞台，展现出无限可能。以游戏《侠盗猎车手》（GTA）为例，在 GTA 的世界里，玩家可以以第一人称视角，在洛圣都(游戏虚拟城市当中经历丰富多彩的生活。然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们是否也能有一...

AIGC 2023-11-10 人工智能

846阅读

百度智能云：千帆大模型平台接入Llama 2等33个大模型，上线103个Prompt模板

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机...

大数据 2023-11-09 人工智能

1002阅读

【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍

文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石 3.1 基本模型 3.2 基于人类反馈的强化学习 3.3 算力支持四、生成式 AI（Generative AI） 4.1 单模态 4.1.1 生成式语...

AIGC 2023-11-09 人工智能

1299阅读

大模型勇闯洛圣都，加封「GTA五星好市民」！南洋理工、清华等发布视觉可编程智能体Octopus：打游戏、做家务全能干

随着游戏制作技术的不断发展，电子游戏已然成为现实世界的模拟舞台。以游戏《侠盗猎车手》（GTA）为例，在GTA的世界里，玩家可以以第一人称视角，在洛圣都（游戏虚拟城市）当中经历丰富多彩的生活。然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们...

人工智能 2023-11-09 人工智能

1002阅读

基于Q学习的无人机WSN数据采集轨迹算法

针对无人机辅助采集无线传感器网络数据时各节点数据产生速率随机和汇聚节点状态不一致的场景，提出基于Q学习的非连续无人机轨迹规划算法Q-TDUD，以提高无人机能量效率和数据采集效率。基于各节点在周期内数据产生速率的随机性建立汇聚节点的汇聚延时模型，应用强化学...

生成式AI 2023-11-08 大数据

865阅读

关于世界模型的一点迷思，以及与自动驾驶结合的几点思考~

本文经自动驾驶之心公众号授权转载，转载请联系出处。什么是world models? 什么是world models, 可以参考Yann LeCun的PPT解释即输入历史1到t时刻的状态信息, 结合当前的动作, 能够预测接下来的状态。通俗地理解,...

AIGC 2023-11-08 人工智能

1270阅读

Sam Altman放豪言：OpenAI训GPT-5不差钱，人类已接近AGI阈值

「OpenAI的最终目标为什么是AGI？什么是AGI？」「ChatGPT以及其他语言模型的用途是什么？」「人类与人工智能的关系在未来会发生什么变化？」在2023年《华尔街日报》（WSJ）的科技新闻发布会上，OpenAI的首席执行官Sam Altma...

AIGC 2023-11-07 人工智能

874阅读

通过100个关键词学习法来学习人工智能（AI）

100个关键词学习法是一种高效的学习方法，它的核心思想是围绕关键词（也就是重点）来进行学习。这套方法论最初由冯唐在世界顶级咨询公司中总结出来。具体来说，不论你想学习哪个行业的知识，首先需要掌握这个行业最重要的一百个关键词。这些关键词可以帮助你快速理解并掌...

人工智能 2023-11-07 人工智能

931阅读

GPT-4重磅升级！OpenAI发布GPT-4 Turbo：更强大还更便宜

快科技11月7日消息，当地时间周一，OpenAI首届开发者大会如期召开，在大会上OpenAI正式推出了GPT-4 Turbo。据OpenAI介绍，相比于GPT-4，GPT-4 Turbo主要有6方面的提升：第一，上下文对话长度，GPT4最大只能支持8k...

人工智能 2023-11-07 人工智能

881阅读

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了...

人工智能 2023-11-07 人工智能

1225阅读

北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界

北京大学和北京智源人工智能研究院的团队提出了名为LLaMA-Rider的训练框架，旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈-修改机制来实现主动探索，使模型在环境中接收反馈信息，不断调整决策，从而逐渐适应开放环境。项目...

人工智能 2023-11-07 人工智能

1144阅读

强化学习与多任务推荐

一、短视频推荐两阶段约束强化学习算法首先介绍的一项快手自研的 WWW 2023 Research Track 工作，主要解决短视频推荐场景下的带约束多目标优化问题。在短视频推荐单列场景中，用户通过上下滑形式和系统进行交互，观看多个视频。用户对每个...

人工智能 2023-11-07 人工智能

1084阅读

让大模型忘记哈利波特，微软新研究上演Llama 2记忆消除术，真·用魔法打败魔法（doge）

最近微软一项研究让Llama 2选择性失忆了，把哈利波特忘得一干二净。现在问模型“哈利波特是谁？”，它的回答是这样婶儿的：木有赫敏、罗恩，木有霍格沃茨…… 要知道此前Llama 2的记忆深度还是很给力的，比如给它一个看似非常普通的提示“那年秋天，哈...

人工智能 2023-11-07 人工智能

754阅读

大型语言模型（LLM）技术精要，不看亏了

哈喽，大家好。今天分享一篇知乎高赞文章，作者是张俊林老师。图片读完收获很多，能帮大家更好地理解、学习大模型。原文有2.8w字，我提炼了核心要点，阅读需要10min。 ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型（LLM）...

AIGC 2023-11-06 人工智能

964阅读

CMU清华MIT引爆全球首个Agent无限流，机器人「007」加班自学停不下来！具身智能被革命

全球首个生成式机器人Agent发布了！长久以来，相比于语言或者视觉模型可以在大规模的互联网数据上训练，训练机器人的策略模型需要带有动态物理交互信息的数据，而这些数据的匮乏一直是具身智能发展的最大瓶颈。最近，来自CMU、清华、MIT，UMass等机构的...

AIGC 2023-11-05 人工智能

882阅读

你应该知道的十种机器学习算法

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。毫无疑问，机器学习/人工智能领域在将来是越来越...

AIGC 2023-11-02 人工智能

1015阅读

特斯拉 Optimus 机器人项目招兵买马，聘请强化学习等领域工程师

11 月 1 日消息，特斯拉正在加速招聘人形机器人项目 Optimus 的工程师，包括一些强化学习方面的专家。很多人对这个项目并不看好，认为它只是一个噱头。然而，特斯拉却非常认真地推进这个项目。最近，特斯拉展示了 Optimus 的最新原型，表现...

人工智能 2023-11-01 人工智能

926阅读

使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习

强化学习(RL 是一种机器学习方法，它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励，因采取行动导致预期结果而受到惩罚。随着时间的推移，代理学会采取行动，使其预期回报最大化。 RL代理通常使用马尔可夫决策过程(MDP ...

AIGC 2023-10-31 人工智能

1043阅读

百度王海峰：文心大模型4.0推理性能提升50倍

在近日的第二十届中国计算机大会上，百度首席技术官王海峰表示，百度在3月16日发布知识增强大语言模型文心一言，目前文心一言的基础模型已迭代到文心大模型4.0版本。知识增强大语言模型从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调...

人工智能 2023-10-30 人工智能

817阅读

最好7B模型再易主！打败700亿LLaMA2，苹果电脑就能跑

花500刀“调教”的70亿参数模型，打败700亿参数的Llama 2！且笔记本就能轻松跑，效果媲美ChatGPT。重点：免费、不要钱。 HuggingFace H4团队打造的开源模型Zephyr-7B，鲨疯了。其底层模型是前段时间爆火、由有着“欧...

AIGC 2023-10-29 人工智能

1159阅读

GPT4教机器人盘转笔，那叫一个丝滑！

那个在聊天中给数学家陶哲轩带来启发的GPT-4，最近又开始教机器人转笔了。项目叫Agent Eureka，是由英伟达、宾州大学、加州理工学院和得克萨斯大学奥斯汀分校联手研发的。他们的研究结合了 GPT-4 结构的能力和强化学习的优势，让 Eureka...

人工智能 2023-10-29 人工智能

867阅读

谷歌20亿美元砸向Anthropic：大模型军备竞赛升级

据华尔街日报、路透社等媒体报道，Alphabet 旗下谷歌公司发言人本周五表示，该公司已同意向人工智能公司 Anthropic 投资至多 20 亿美元（约合 146 亿人民币）。该发言人表示，该公司已向这个 OpenAI 的重要竞争对手预先投资 5...

人工智能 2023-10-28 人工智能

873阅读

Datasaur推出LLM实验室，助力企业构建自定义AI应用

San Francisco的AI初创公司Datasaur宣布推出LLM Lab，这是一款全面的工具，旨在帮助企业构建自定义的大型语言模型应用，类似于ChatGPT。LLM Lab可在云端或本地部署，为企业提供构建内部自定义生成式AI应用的起点，同时减少了来...

人工智能 2023-10-27 人工智能

843阅读

吃“有毒”数据，大模型反而更听话了！来自港科大&华为诺亚方舟实验室

现在，大模型也学会“吃一堑，长一智”了。来自香港科技大学和华为诺亚方舟实验室的最新研究发现：相比于一味规避“有毒”数据，以毒攻毒，干脆给大模型喂点错误文本，再让模型剖析、反思出错的原因，反而能够让模型真正理解“错在哪儿了”，进而避免胡说八道。具体...

人工智能 2023-10-27 人工智能

795阅读

Anthropic AI 团队研究显示：人工智能倾向于产生迎合用户的奉承性回应而非事实真相

Anthropic 是一家美国的人工智能初创企业和公益公司，由 OpenAI 的前成员创立。Anthropic 专注于开发通用 AI 系统和语言模型，并秉持负责任的 AI 使用理念。Anthropic 开发的 Claude 2 于 2023 年七月推出。...

人工智能 2023-10-25 人工智能

904阅读

GPT-4教会机器手转笔、玩魔方！RL社区震惊：LLM设计奖励竟能超越人类？

GPT-4，竟然教会机器人转笔了！图片英伟达、宾大、加州理工、德州奥斯汀等机构的专家提出一个开放式Agent——Eureka，它是一个开放式Agent，为超人类水平的机器人灵巧性设计了奖励功能。图片论文链接：https://arxiv.org/p...

AIGC 2023-10-24 人工智能

1020阅读

英伟达推出 AI 系统 Eureka，可令机器人执行转笔传球等复杂工作

10 月 23 日消息，英伟达日前公布了一个名为 Eureka 的 AI 系统，该系统以 OpenAI 的 GPT-4 为基础，能够让机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等 30 多种复杂动作。 IT之家经过查询得知，英伟达研...

AIGC 2023-10-23 人工智能

885阅读

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

量子位 | 公众号 QbitAI 训练机器人，AI比人类更拿手! 英伟达最新AI AgentEureka，用GPT-4生成奖励函数，结果教会机器人完成了三十多个复杂任务。比如，快速转个笔，打开抽屉和柜子、抛球和接球。尤其是转笔这个技能，要知道靠人类逐...

AIGC 2023-10-23 人工智能

950阅读

机器人学会转笔、盘核桃了！GPT-4加持，任务越复杂，表现越优秀

大数据文摘出品家人们，继人工智能（AI）攻占象棋、围棋、Dota之后，转笔这一技能也被 AI 机器人学会了。上面这个笔转的贼溜的机器人，得益于名叫Eureka的智能体（Agent），是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分...

人工智能 2023-10-23 人工智能

896阅读

有了GPT-4之后，机器人把转笔、盘核桃都学会了

在学习方面，GPT-4 是一个厉害的学生。在消化了大量人类数据后，它掌握了各门知识，甚至在聊天中能给数学家陶哲轩带来启发。与此同时，它也成为了一名优秀的老师，而且不光是教书本知识，还能教机器人转笔。这个机器人名叫 Eureka，是来自英伟达、宾夕法...

人工智能 2023-10-23 人工智能

963阅读

Meta重磅更新，小扎在元宇宙里养了会做家务的狗！人形化身超逼真，AI智能体在真实物理世界和人互动

今天开始，人类离帮忙做家务的机器人，又近了一步！ Meta宣布推出Habitat 3.0，目的是开发出社会化的AI智能体，这意味着社交智能机器人已经进入新的里程碑阶段。这些具身智能背后的关键，当然就是AI Agent。有了它们，机器人可以和人类协作...

AIGC 2023-10-23 人工智能

965阅读

参数少近一半，性能逼近谷歌Minerva，又一个数学大模型开源了

如今，在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力，可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能，因此更倾向于通用模型。不过如果想要在某一领域（如医学、金融或科学）内最大限...

AIGC 2023-10-23 人工智能

931阅读