-
通过强化学习策略进行特征选择
特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征,可以提高性能。 如果我们处理的是高维数据集,那么选择特征就显得尤为重要。它使模型能够更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。 在本文中,我们将...
-
基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (二)
基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (二) #Options local_llm = 'llama3' llm = ChatOllama(model=local_llm, format="json", tempe...
-
知识分享系列五:大模型与AIGC
大模型(LLM,Large Language Mode)是指通过在海量数据上依托强大算力资源进行训练后能完成大量不同下游任务的深度学习模型。大模型主要用于进行自然语言相关任务,给模型一些文本输入,它能返回相应的输出,完成的具体任务包括生成、分类、总结、改写...
-
世界模型也扩散!训练出的智能体竟然不错
世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。 然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在...
-
综述!全面概括基础模型对于推动自动驾驶的重要作用
写在前面&笔者的个人理解 近年来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。...
-
加州大学最新!CarDreamer:全面、灵活的自动驾驶算法测试开源平台
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 为了在复杂的真实世界场景中安全导航,自动驾驶汽车必须能够适应各种道路条件并预测未来事件。基于世界模型的强化学习(RL)已经成为一种有前景的方法,通过学习和预测各种环境...
-
突发!OpenAI再失一名高管,安全主管辞职
5月18日凌晨,OpenAI安全主管、超级对齐负责人Jan Leike在社交平台宣布,离开OpenAI。 这也是本周三OpenAI联合创始人兼首席科学家Ilya Sutskever辞职之后,又有一名高管辞职。 相信随着二人的离开,后续还会有不少人离开Ope...
-
英伟达开源大模型对齐框架—NeMo-Aligner
随着ChatGPT、Midjourney等大模型产品的影响力、应用场景越来越多,为了确保输出的内容安全、可靠,对齐成为开发人员的关注重点和难点。 但现在的模型参数少则几百亿多则上千亿,想通过传统的监督式微调方法来完成对齐效果往往不理想。 因此,英伟达的研究...
-
Deepseek-V2技术报告解读!全网最细!
深度求索Deepseek近日发布了v2版本的模型,沿袭了1月发布的 Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进行建模,同时在训练和推理上加入了更多的优化。沿袭了一贯的作风,Deepseek对模型(基座和对话对齐版本)进行了...
-
如何克服人工智能的缺点?
人工智能(AI 领域经历了深刻的变化,并变得越来越复杂。人工智能被誉为改变游戏规则的技术。人工智能由于其聪明才智,比人类更早完成任务,例如语音识别、模式可视化和决策,但它只能翻译语言。然而,自ChatGPT发布以来,该定义一直是类似的。 不过,这并不是...
-
如何克服人工智能的缺点?
人工智能(AI 领域经历了深刻的变化,并变得越来越复杂。人工智能被誉为改变游戏规则的技术。人工智能由于其聪明才智,比人类更早完成任务,例如语音识别、模式可视化和决策,但它只能翻译语言。然而,自ChatGPT发布以来,该定义一直是类似的。 不过,这并不是...
-
网易集团高级副总裁胡志鹏:AI 游戏新链路,端侧大模型大有可为
5月7日,MediaTek天玑开发者大会2024(MDDC2024)在深圳召开,本届MDDC 大会的主题为“AI予万物”,众多资深行业先驱、技术专家齐聚一堂,深入探讨了Al 技术在各个领域的应用和发展,以及AI 赋予终端侧的更多可能性。 在MDDC天玑高峰...
-
LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向
机器如何能像人类和动物一样高效地学习?机器如何学习世界运作方式并获得常识?机器如何学习推理和规划…… 当一系列问题被提出时,有人回答自回归 LLM 足以胜任。 然而,知名 AI 学者、图灵奖得主 Yann LeCun 并不这么认为,他一直唱衰自回归 LL...
-
六种人工智能代理(AI Agent)类型
随着大模型的发展,通用智能不断迭代升级,应用模式也不断创新,从简单的Prompt应用、RAG(搜索增强生成)再到AI Agent(人工智能代理)。其中AI Agent一直是个火热的话题,未来将无处不在。比尔盖茨还宣称终极技术竞赛将围绕着开发顶级AI代理。...
-
专利大模型的实践与知识问答探索
一、专利大模型背景介绍 智慧芽一直致力于为科技创新和知识产权领域提供信息服务。在小型模型时代(如 Bert),参数量较少,智能理解方面存在局限性。因此,在着手开发大模型之前,智慧芽深入思考了领域聚焦的重要性。在知识产权领域,专利检索、专利对比、标引工作...
-
「非常接近GPT-4」的WizardLM-2被微软紧急撤回,有什么内幕?
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。 据现在可以查到的 WizardLM-2 发布信息,这是一个「真正媲美 GPT-4」的开源大模型,在复杂聊天、多语言、推理和代理方面的性能得到了提高。 该系列包括三个...
-
MindSpore强化学习:使用PPO配合环境HalfCheetah-v2进行训练
本文分享自华为云社区《MindSpore强化学习:使用PPO配合环境HalfCheetah-v2进行训练》,作者: irrational。 半猎豹(Half Cheetah)是一个基于MuJoCo的强化学习环境,由P. Wawrzyński在“A Cat...
-
探讨自回归模型和扩散模型的发展应用
在当前大模型驱动的内容创新浪潮中,人工智能产业正以前所未有的力度拥抱一场由大模型技术策动的科技革新运动。这场革命不仅重塑了人机交互的边界,使其跃升至更高层次的认知协作,而且正在颠覆传统的计算思维与执行模式,催生出全新的计算范式,从而深刻地渗透并革新各行各...
-
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,Q* 很可能是...
-
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试
上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。 却没想到发布几小时之后,立马被删除了。 有网友突然发现,WizardLM的模型权重、公告帖子全部被删除,并且不再微软集合中,除了提到站点之外,却找不到任何证据证明这个微软的官方项目。...
-
波士顿动力新版人形机器人Atlas问世,纯电驱动
我们见证了新一代人形机器人 Atlas 的诞生。 新机器人的视频一出,我们立即理解了波士顿动力为何退役已开发十多年的旧版 Atlas—— 人形机器人,现在应该有的是超越人类的灵活性。 Atlas 机器人躺平在实验室的地板上,看起来是仰卧,但突然关节反转站...
-
2024谷歌研究学者计划名单公布:清华、北大、上交ACM班等校友在列
2024 年谷歌研究学者计划(Research Scholar Program)获奖名单公布了。获奖者最高将获得 6 万美元奖金,用于支持研究工作。 今年该计划共涉及 12 个领域,包括算法与优化;应用科学;人机交互;健康研究;机器学习和数据挖掘;机器感...
-
扩散模型如何帮助创建更好的强化学习系统
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 扩散模型以其令人印象深刻的生成高质量图像的能力而闻名,它们是流行的文本到图像模型(例如DALL-E、Stable Diffusion和...
-
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
强化学习(RL)通过与环境交互的试错反馈来优化顺序决策问题。 虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力(例如王者荣耀,Dota 2等),但很难在包含大量自然语言和视觉图像的现实复杂应用中落地,原因包括但不限于:数据获取困难、样本...
-
2024-03-26 AIGC-大模型学习路线
摘要: 2024-03-26 AIGC-大模型学习路线 大模型学习路线 建议先从主流的Llama开始,然后选用中文的Qwen/Baichuan/ChatGLM,先快速上手体验prompt工程,然后再学习其架构,跑微调脚本 如果要深入学习,建...
-
基于数据正则化自博弈强化学习的人类兼容型自动驾驶
自动驾驶汽车面临的一个核心挑战是如何与人类合作。因此,在模拟环境中,将现实中的人类代理纳入到自主驾驶系统的可扩展训练和评估中至关重要。模拟代理通常是通过模仿大规模、高质量的人类驾驶数据集来开发的。然而,纯粹的模仿学习代理在多代理闭环环境中执行时经验上具...
-
大模型技术实践(二)|关于Llama 2你需要知道的那些事儿
在上期文章中,我们简要回顾了Llama模型的概况,本期文章我们将详细探讨【关于Llama 2】,你需要知道的那些事儿。 01-Llama 2的性能有多好? 作为Meta新发布的SOTA开源大型语言模型,Llama 2是Llama模型的延续和升级。Lla...
-
抱抱脸Open了OpenAI的秘密武器,网易参与复现
OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。 来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。 最终成功展示...
-
生成型人工智能优化框架研究
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介 生成类似人类的文本和语音曾经只有在科幻小说中才成为可能。但是,GPT-3和PaLM等大型语言模型(LLM)的快速发展...
-
论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models
导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接:https://arxiv.org/abs/2307.09288 1 引言 大型语言...
-
快手强化学习与多任务推荐
一、Two-Stage Constrained Actor-Critic for Short Video Recommendation 第一篇工作是快手自研的,主要针对的是带约束的多任务场景。 1. 短视频多任务推荐场景 这篇工作主要针对的是短视频的一...
-
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark火了
让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打? GitHub上一种你没有见过的船新Benchmark火了。 与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确...
-
增强包容性:如何利用Edge ML支持具有特殊需求的个人
译者 | 李睿 审校 | 重楼 科技进步为具有特殊需要的人带来了新的解决方案。边缘机器学习(Edge ML 是一项开创性技术,它使机器学习算法更接近数据源,从而减少延迟,并提高实时处理能力。 本文讨论了Edge ML在解决具有特殊需求的个人所面临的独特...
-
LLaMA-Factory参数的解答
打开LLaMA-Factory的web页面会有一堆参数 ,但不知道怎么选,选哪个,这个文章详细解读一下,每个参数到底是什么含义这是个人写的参数解读,我并非该领域的人如果那个大佬看到有参数不对请反馈一下,或者有补充的也可以!谢谢(后续该文章可能会持续更新)...
-
【Stable Diffusion】专栏介绍和文章索引(持续更新中)
目录 1 背景 2 思考 3 文章索引(持续更新中) 3.1 入门 3.2 初级 3.3 中级 3.3 高级 1 背景 最近开始学习AIGC,对Stable Diffusion比较感兴趣,所以新建了这个专栏,来记录自己在使用和...
-
大型语言模型如何教会自己遵循人类指令?
译者 | 李睿 审校 | 重楼 如今,人们对能够使大型语言模型(LLM 在很少或没有人为干预的情况下改进功能的技术越来越感兴趣。大型语言模型(LLM 自我改进的领域之一是指令微调(IFT ,也就是让大型语言模型教会自己遵循人类指令。 指令微调(IFT ...
-
微软亚研院新作:让大模型一口气调用数百万个API!
近年来,人工智能发展迅速,尤其是像ChatGPT这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。 但在特定领域任务上,由于专业数据的缺乏和可能的计算错误,它们的表现并不理想。同时,虽然已有一些专门针对特定任务的AI...
-
AI时代的网络安全:探索AI生成的网络攻击
译者 | 晶颜 审校 | 重楼 长期以来,网络攻击一直是劳动密集型的,需要经过精心策划并投入大量的人工研究。然而,随着人工智能技术的出现,威胁行为者已经成功利用它们的能力,以非凡的效率策划攻击。这种技术转变使他们能够大规模地执行更复杂、更难以检测的攻击,...
-
400米2分34秒破纪录!伯克利双足机器人「接管」人类
UC伯克利的双足机器人,跑步又破纪录了! 最近,HYBRID ROBOTICS研究团队的Cassie,给我们来了一段惊艳的表演—— 以2分34秒的成绩,跑完了400米! 随后,它又在不需要额外训练的情况下,完成了1.4米的跳远。 是的,相信你已经注意到了...
-
AIGC实战——Transformer模型
AIGC实战——Transformer模型 0. 前言 1. T5 2. GPT-3 和 GPT-4 3. ChatGPT 小结 系列链接 0. 前言 我们在 GPT (Generative Pre-trained Transfo...
-
腾讯游戏亮相GDC 2024,围绕AI等多项技术议题与全球游戏从业者分享交流
当地时间3月18日-3月22日,被誉为“游戏界春晚”的2024游戏开发者大会GDC(GameDevelopersConference,简称GDC)于美国旧金山举办,共计近3万位来自世界各地的游戏从业者汇聚于此,交流探讨游戏产业最新发展动态。 GDC创办于1...
-
揭秘Baichuan 3超越GPT-4的中文实力!文心一言、GLM 4.0也甘拜下风?全方位对比测试大揭秘!
AI界的焦点再度聚集!1月29日,百川智能推出了超千亿参数的大语言模型Baichuan 3,瞬间在科技圈点燃了热情。不同于其他模型,Baichuan 3在中文各项评测中都有惊艳表现,甚至在任务上超越了GPT-4,成为了新的领头羊。 Baichuan 3不...
-
AI模型训练:强化算法与进化算法
强化学习算法(RL 和进化算法(EA 都属于机器学习领域的子集,但它们在解决问题的方法和思想上有所不同。 强化学习算法: 强化是一种机器学习范式,它主要关注的是智能体(agent 在与环境进行交互的过程中,通过尝试和错误来学习最优的行为策略,以使其在某...
-
腾讯发布自研游戏AI引擎:3D城市布局效率提升百倍,UGC工具已上线《元梦之星》
腾讯游戏,现在连引擎都有AI味儿了—— 就在游戏开发者大会(GDC)上,腾讯刚刚发布自研游戏AI引擎GiiNEX。 官方介绍,基于生成式AI和决策AI技术,GiiNEX可以支持游戏从研发到运营的全生命周期需求。 具体来说,无论是AI NPC的对话生成,还是...
-
人工智能模型提供支持,谷歌拟在印度提供肺结核、肺癌等疾病筛查服务
3 月 19 日消息,谷歌今日官宣了一系列在医疗保健行业部署 AI 模型的计划。根据计划,谷歌研究团队和其拥有的 Fitbit 公司正在开发一系列新的人工智能功能:从腕带中提取数据并指导用户的个人健康,该工具由谷歌人工智能模型 Gemini 提供支持...
-
机器学习:Github上排名前19个强化学习 (RL)项目
强化学习 (RL 是一种机器学习,使代理能够通过反复试验来学习。强化学习算法用于各种应用,包括游戏、机器人和金融。 RL 的目标是找到一种最大化预期长期回报的策略。强化学习算法通常分为两类:基于模型的算法和无模型的算法。基于模型的强化学习算法构建环境模...
-
AI大模型控制红绿灯,港科大(广州)智慧交通新成果已开源
大模型“上路”,干起了交通信号控制(TSC)的活~ 模型名为LightGPT,以排队及不同区段快要接近信号灯的车辆对路口交通状况分析,进而确定最好的信号灯配置。 该模型由香港科技大学(广州)的研究团队提出,其背后关键是一个名为LLMLight的框架。...
-
大模型能自己优化Prompt了,曾经那么火的提示工程要死了吗?
2022 年底,ChatGPT 上线,同时引爆了一个新的名词:提示工程(Prompt Engineering)。 简而言之,提示工程就是寻找一种编辑查询(query)的方式,使得大型语言模型(LLM)或 AI 绘画或视频生成器能得到最佳结果或者让用户能绕...
-
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
大型语言模型(LLMs)的发展极大地推动了代码生成领域的发展,之前有工作将强化学习(RL)与编译器的反馈信号集成在一起,用于探索LLMs的输出空间,以提高代码生成质量。 但当下还存在两个问题: 1. 强化学习探索很难直接适配到「复杂的人类需求」,即要求L...
-
首个自主完成人类任务机器人出现,五指灵活速度超人,大模型加持虚拟空间训练
这周,由OpenAI,微软,贝佐斯,英伟达投资的机器人公司Figure AI融资接近7亿美元,号称在1年之内要做出等独立行走工作的人形机器人。 而特斯拉的擎天柱也屡屡传出好消息。 没人怀疑,今年会是人形机器人爆发的一年。 一家位于加拿大的机器人公司San...