-
原作者带队,LSTM真杀回来了!
20 世纪 90 年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM 经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,以可并行自注意力为核心 Transformer 横空出世之后,LSTM 自身所...
-
当「软件研发」遇上 AI 大模型
作者:陈鑫(神秀) 大家好,我是通义灵码的产品技术负责人陈鑫。过去有八年时间,我都是在阿里集团做研发效能,即研发工具相关的工作。 我们从 2015 年开始做一站式 DevOps 平台,然后打造了云效,也就是将 DevOps 平台实现云化。到了 2023...
-
DriveWorld:一个预训练模型大幅提升检测+地图+跟踪+运动预测+Occ多个任务性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 以视觉为中心的自动驾驶技术近期因其较低的成本而引起了广泛关注,而预训练对于提取通用表示至关重要。然而,当前的以视觉为中心的预训练通常依赖于2D或3D预训练任务,忽视了自动驾驶作为4D场景理解...
-
LidaRF:研究用于街景神经辐射场的激光雷达数据(CVPR'24)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 光真实感模拟在自动驾驶等应用中发挥着关键作用,其中神经辐射场(NeRFs)的进步可能通过自动创建数字3D资产来实现更好的可扩展性。然而,由于街道上相机运动的高度共线性和在高速下的稀疏采样,街景的重建质...
-
DeepSeek Chat:AI对话助手 - 使用教程与免费体验入口
DeepSeek Chat是什么? DeepSeek Chat,基于DeepSeek-V2 模型,是一款集成了 2 千亿参数量的MoE(Mixture of Experts)模型的AI技术产品。它在中文综合能力(AlignBench)和英文综合能力(MT-...
-
一览Occ与自动驾驶的前世今生!首篇综述全面汇总特征增强/量产部署/高效标注三大主题
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务,适用于具有成本效益的自动驾驶感知系统,它可以...
-
OpenAI 与《People》出版商 Dotdash Meredith 达成合作
OpenAI 正在与另一家出版商合作,以授权获得培训数据。People和Better Homes & Gardens等品牌的所有者 Dotdash Meredith将向 OpenAI 授权其内容来训练ChatGPT,而出版商将使用 AI 公司的模型...
-
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
开源大模型领域,又迎来一位强有力的竞争者。 近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。 项目地址:https://gi...
-
国产开源MoE指标炸裂:GPT-4级别能力,API价格仅百分之一
最新国产开源MoE大模型,刚刚亮相就火了。 DeepSeek-V2性能达GPT-4级别,但开源、可免费商用、API价格仅为GPT-4-Turbo的百分之一。 因此一经发布,立马引发不小讨论。 从公布的性能指标来看,DeepSeek-V2的中文综合能力超越...
-
OpenAI泄密者,投奔马斯克
刚被OpenAI开除的泄密者,光速投奔马斯克。 当事人Pavel Izmailov(以下简称小P),正是Ilya盟友之一,在Ilya领导的超级对齐团队干过。 半个月前,小P被指疑似泄露Q*相关机密而被开除。虽然不清楚他泄密了个啥,但当时闹得沸沸扬扬。 说...
-
全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一
想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源 MoE 模型来了。 DeepSeek-V2 是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效...
-
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
过去几年,借助Scaling Laws的魔力,预训练的数据集不断增大,使得大模型的参数量也可以越做越大,从五年前的数十亿参数已经成长到今天的万亿级,在各个自然语言处理任务上的性能也越来越好。 但Scaling Laws的魔法只能施加在「固定」的数据源上,...
-
开发者的LlamaIndex入门指南
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ LlamaIndex是一个专注于检索增强生成(RAG 的工具,可以协助您丰富大模型的数据提示。本文将用实例向您展示和介绍。 众所周知,...
-
58行代码把Llama 3扩展到100万上下文,任何微调版都适用
堂堂开源之王Llama 3,原版上下文窗口居然只有……8k,让到嘴边的一句“真香”又咽回去了。 在32k起步,100k寻常的今天,这是故意要给开源社区留做贡献的空间吗? 开源社区当然不会放过这个机会: 现在只需58行代码,任何Llama 3 70b的微调...
-
AI音乐工具 Udio更新 可制作长达15分钟音乐
AI音乐工具Udio最近宣布了一系列新功能的更新,这些更新致力于帮助用户创作出更长、更连贯的音乐作品,为音乐制作者提供了更多的创作自由和可能性。 Udio的新更新中,上下文窗口得到了扩展,现在在用户扩展一首歌曲的某个部分时,系统会考虑该部分前后最长两分钟...
-
OpenAI下周将发布ChatGPT搜索引擎,挑战谷歌搜索!
5月3日,前Mila研究员、麻省理工讲师Lior S爆料,根据OpenAI最新的SSL证书日志显示,已经创建了search.chatgpt.com子域名(目前无法访问),将会进军搜索引擎全面挑战该领域的全球霸主谷歌。 比较巧的是,OpenAI已经更新了网站...
-
Llama 3细节公布!AI产品总监站台讲解:Llama系列超庞大生态系统
除了计算资源和训练数据这些硬实力外,Llama3模型开源的训练思路覆盖了LLM模型的全部生命周期,提供了各种开源生态系统下的工具。 Llama3的开源,再次掀起了一场大模型的热战,各家争相测评、对比模型的能力,也有团队在进行微调,开发衍生模型。 最近,M...
-
理解GraphRAG(一):RAG的挑战
检索增强生成(RAG)是一种通过外部知识源增强现有大型语言模型(LLM)的方法,以提供和上下文更相关的答案。在RAG中,检索组件获取额外的信息,使响应基于特定来源,然后将这些信息输入到LLM提示中,以使LLM的响应基于这些信息(增强阶段)。与其他技术(例...
-
苹果推出理解、转化模型ReALM,性能超GPT-4
苹果的研究人员推出了一种创新模型ReALM,可将参考解析问题转化为语言建模问题,能极大提升AI助手处理很多描述复杂或模糊不清的内容。 例如,我们网购时选好了橘子、鸭梨、苹果、橘子汽水、洗发水、短袖、拖鞋等物品,然后告诉AI助手只结算水果。这时传统的AI助手...
-
开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型
开源大模型,已经开启大卷特卷模式。 全球范围,太平洋两岸,双雄格局正在呼之欲出。 Llama 3中杯大杯刚惊艳亮相,国内通义千问就直接开源千亿级参数模型Qwen1.5-110B,一把火上Hacker News榜首。 不仅相较于自家720亿参数模型性能明...
-
LLM和RAG技术的比较探索
作者 | Ashok Gorantla 整理 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 在人工智能(AI)的动态环境中,两种开创性的技术——大型语言模型(LLM)和检索增强生成(RAG)——在理解和生成类人文本方面脱颖而出。本...
-
如何利用AI实现文档处理自动化
译者 | 陈峻 审校 | 重楼 文件处理在许多企业及员工看来是一项必不可少、却又耗时费力的工作。每天,他们往往需要花费无数个小时去对文件进行分类、归档、以及搜索。不过,如今人工智能(AI)正在以自动化的方式改变着这些琐碎的工作。 通过利用人工智能,企业...
-
AI日报:Awaker 1.0写真视频击败Sora?Sora视频被指大量后期;苹果首款AI平板曝光;百万网友围观博主和AI“谈恋爱”
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、写真视频击败Sora?人大自研...
-
最新综述!万字长文彻底搞懂单目3D车道线检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 3D车道检测在自动驾驶中起着至关重要的作用,通过从三维空间中提取道路的结构和交通信息,协助自动驾驶汽车进行合理、安全和舒适的路径规划和运动控制。考虑到传感器成本和视觉数...
-
LLM 安全 | 大语言模型应用安全入门
一、背景 2023年以来,LLM 变成了相当炙手可热的话题,以 ChatGPT 为代表的 LLM 的出现,让人们看到了无限的可能性。ChatGPT能写作,能翻译,能创作诗歌和故事,甚至能一定程度上做一些高度专业化的工作,比如法律服务和医疗诊断咨询。...
-
股价飙升!商汤大模型挑战GPT4
4月24日,商汤集团在港交所暂停交易前股价上涨31.15%。商汤集团表示,其大模型日日新5.0发布会受到市场极大关注,公司将进一步刊发相关公告。在“2024年商汤技术交流日”上,商汤发布了其最新的大模型——SenseNova5.0,旨在追赶GPT-4,这反...
-
《这就是ChatGPT》登顶微信读书热搜榜第一名
今日,据微信读书热搜榜显示,《这就是ChatGPT》登顶微信读书热搜榜第一名。 据悉,《这就是 ChatGPT》是一本由 [美] 斯蒂芬・沃尔夫拉姆(Stephen Wolfram)于2023年7月出版的图书,由人民邮电出版社出版。 该书主要介绍了 Op...
-
AI视频生成工具ID-Animator:可保持角色一致生成视频动画
近年来,生成具有指定身份的高保真人类视频引起了广泛关注。然而,现有技术在训练效率和身份保持之间往往难以取得平衡,要么需要繁琐的逐案微调,要么在视频生成过程中通常会丢失身份细节。研究提出了一种名为 ID-Animator 的零样本人类视频生成方法,可以在无需...
-
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报道《全网大讨论:引爆 OpenAI 全员乱斗的 Q * 到底是什么?》简而言之,Q* 很可能是...
-
一文读懂 LLM 的构建模块:向量、令牌和嵌入
在当今信息爆炸的时代,我们不断面临着海量文本数据的挑战。为了有效地处理和理解这些数据,自然语言处理(NLP)领域的研究者们一直在不断探索和创新。而其中一个重要的研究方向就是语言模型(Language Model)。 在这篇文章中,我们将一起探索和理解...
-
CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Towards Realistic Scene Generation with LiDAR Diffusion Models 论文链接:https://hancyran.github.io/a...
-
月之暗面:Kimi 大模型API 已支持 Tool Calling 功能
月之暗面(Moonshot AI)宣布Kimi 大模型学会了使用工具,即 API 已支持 Tool Calling 功能。 通过这个功能,开发者可以让 Kimi 大模型与各种自定义外部工具进行交互,从而拓展 AI 应用的想象空间。举例来说,Kimi 大模型...
-
免费用户也可创建GPTs了?ChatGPT 即将更新功能曝光 GPT plus不香了!
博主Tibor Blaho 在推特上披露了 ChatGPT 即将推出的新功能和改进,尽管关于 GPT-5的具体信息尚未公开,但 OpenAI 显然已经在为 ChatGPT 的下一步发展做准备。 新版用户界面: 界面将进行优化,部分元素将被隐藏或重新设计。...
-
自然语言处理(NLP)的工作原理
本文旨在揭开语言模型的神秘面纱,阐明其处理原始文本数据的基本概念和机制。它涵盖了几种类型的语言模型和大型语言模型,重点关注基于神经网络的模型。 语言模型定义 语言模型专注于生成类似人类的文本的能力。通用语言模型本质上是单词序列的统计模型或概率分布,用于...
-
商汤港股涨超34% 昨日推出AI大模型“日日新5.0”
商汤港股今日表现强势,涨幅显著扩大至34%,股价报0.820港元,总市值跃升至274.45亿港元。这一涨幅不仅彰显了市场对商汤科技的强烈信心,也反映出其业务的持续发展和强大潜力。 就在昨日,商汤科技在北京盛大举行新品发布会,正式推出了人工智能大模型“日日...
-
防止AI系统受到提示注入攻击的五个方法
译者 | 布加迪 审校 | 重楼 提示注入攻击是一种网络安全威胁,专门针对基于人工智能(AI)的系统,包括聊天机器人、虚拟助理及其他基于AI的界面。当攻击者以某种方式操纵AI模型的输入,导致模型执行意外操作或泄露敏感信息时,就会发生这类攻击。这种操纵可以...
-
全面对标GPT-4 Turbo!商汤发布日日新5.0大模型
快科技4月23日消息,商汤科技在中国北京举行新品发布会,正式发布人工智能大模型日日新5.0”。 日日新5.0大模型采用了先进的MOE(Mixture of Experts)混合专家架构,这一架构的引入,使得模型在处理复杂任务时能够表现出更高的效率和准确性。...
-
商汤发布日日新5.0大模型 综合能力全面对标GPT-4
4月23日下午,商汤科技发布了一项重磅更新——全新升级的日日新SenseNova5.0大模型。这款大模型采用了先进的MOE混合专家架构,经过超过10TB tokens的训练,其推理上下文窗口达到了惊人的200K,展现出了与GPT-4Turbo全面对标的能力...
-
开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了
虽然大型语言模型(LLM)在各种常见的自然语言处理任务中展现出了优异的性能,但随之而来的幻觉,也揭示了模型在真实性和透明度上仍然存在问题。 在模型生成错误回复内容时,如果能够「深入理解其背后运行机制」,或许可以解决模型的幻觉问题。 然而,随着深度神经网络...
-
ChatGPT能预测未来特定事件,准确率高达97%
贝勒大学经济学院的Pham Hoang Van和Scott Cunningham两位教授,基于OpenAI的GPT-3.5、GPT-4深度研究了大模型对事情的预测能力。 研究人员使用了直接预测和未来叙述(Future Narrative)两种提示方法,进行...
-
微软紧急撤回最先进的AI大模型:居然忘了测试了
快科技4月21日消息,Meta发布超级彪悍的大语言模型Llama 3之后,微软也很快推出了自己的新一代WizardLM2 8x22B,号称迄今最强大,完全超越Claude 3 OpusSonnet、GPT-4等竞品,而且开源,但是马上又把它撤回去了。 没有...
-
让玩家全程掌控游戏:自然语言指令驱动的游戏引擎到来了
对于每一位热爱打游戏的人而言,都曾经想过这样一个问题,「这游戏要是我来做就好了!」 可惜的是,游戏开发有很高的门槛,需要专业的编程技巧。 近日,来自上海交大的团队开展了一个名为「Instruction-Driven Game Engine, IDGE」的...
-
以自组织映射算法促进高效的LLM检索增强生成
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 背景 当今社会,人们使用大量数据训练包含数百万和数十亿模型参数的大型语言模型(LLM),目标是生成文本,如文本完成、文本摘要、语言翻译...
-
六种方式快速体验最新发布的 Llama 3!
昨晚, Meta 发布了 Llama 3 8B 和 70B 模型,Llama 3 指令调整模型针对对话/聊天用例进行了微调和优化,在常见基准测试中优于许多现有的开源聊天模型。比如,Gemma 7B 和 Mistral 7B。 Llama 3 模型将...
-
RAG 2.0架构详解:构建端到端检索增强生成系统
关于检索增强生成(RAG)的文章已经有很多了,如果我们能创建出可训练的检索器,或者说整个RAG可以像微调大型语言模型(LLM)那样定制化的话,那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调,就像一个缝合怪一样,虽然能够工作...
-
提高 RAG 应用准确度,时下流行的 Reranker 了解一下?
检索增强生成(RAG)是一种新兴的 AI 技术栈,通过为大型语言模型(LLM)提供额外的“最新知识”来增强其能力。 基本的 RAG 应用包括四个关键技术组成部分: Embedding 模型:用于将外部文档和用户查询转换成 Embedding 向量...
-
5亿个token之后,我们得出关于GPT的七条宝贵经验
自 ChatGPT 问世以来,OpenAI 一直被认为是全球生成式大模型的领导者。2023年3月,OpenAI 官方宣布,开发者可以通过 API 将 ChatGPT 和 Whisper 模型集成到他们的应用程序和产品中。在 GPT-4发布的同时 OpenA...
-
开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4
扎克伯格:「有了 Llama3,全世界就能拥有最智能的 AI。」 ChatGPT 拉开了大模型竞赛的序幕,Meta 似乎要后来居上了。 本周四,AI 领域迎来重大消息,Meta 正式发布了人们等待已久的开源大模型 Llama3。 扎克伯格在 Faceboo...
-
GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压
今天起,最新版的GPT-4 Turbo,正式向ChatGPT Plus用户开放了! 图片 有了GPT-4 Turbo加持后,ChatGPT写作、数学、逻辑推理和编码的能力得到提升。 小编小试,果然ChatGPT最新数据已经更新到了4月。 图片 根据基准测...
-
甲骨文宠儿力压GPT-4斩获竞技场首胜,不绑定厂商,不做聊天机器人,Transformer最年轻作者带飞大模型创业新星
编辑 |诺亚、伊风 出品 | 51CTO技术栈(微信号:blog51cto) 近日在开源模型界,Command R+风头正劲。 在Arena榜单上,Command R+凭借逾13000名支持者的票,一度跃升至第6位,其表现与GPT-4-0314旗鼓相...