-
破除36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」
大语言模型的「逆转诅咒」,被解开了! 这个诅咒在去年9月首次被发现,一时间引起LeCun、Karpathy、马库斯等一众大佬的惊呼。 因为风光无两、不可一世的大模型竟存在着“阿克琉斯之踵”:一个在「A是B」上训练的语言模型,并不能正确回答出「B是A」。...
-
AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞
AI,的确正在改变数学。 最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(Bulletin of the American Mathematical Society)。 围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的...
-
GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%
【新智元导读】小孩子都会的脑筋急转弯推理题,GPT-4和Claude3做不出?国外一位开发者小哥坚称这一观点,认为GPT模型在训练集外毫无推理能力,无法实现AGI,甚至悬赏1万美元,发起比赛。然而,他当天就被光速打脸了!网友用高能的prompt,让GPT-...
-
抱抱脸Open了OpenAI的秘密武器,网易参与复现
OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。 来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。 最终成功展示...
-
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和...
-
CS25官网体验入口 斯坦福大学深度学习AI课程免费在线使用地址
CS25是斯坦福大学提供的一门课程,主要探讨深度学习模型Transformers,该模型在全球范围内产生了巨大影响。课程邀请了Transformers研究领域的前沿人物,讨论从GPT和Gemini等LLM架构到创造性应用(如DALL-E和Sora)在内的最...
-
文心一言赋能问卷生成,打造高效问卷调研工具
当前,各种大语言模型(LLM,Large Language Model)井喷式发展,基于LLM的应用也不断涌现。但是,当开发者基于LLM开发下游应用时,LLM直接生成的结果在格式、内容等方面都存在许多不确定因素,难以与其他业务逻辑代码做数据交互,导致开发者...
-
大模型融合!最新「进化算法」全自动组合开源模型,刷榜多项基准测试
人类智慧的基础并不在于单个聪明的个体,而在于集体智慧。 比如说,我们的社会和经济体系就是建立在由具有不同专业和专长的不同个人组成的许多机构的基础上的。 Sakana AI团队相信,人工智能的发展也将遵循类似的集体道路。 人工智能的未来不会是一个单一的、巨...
-
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各...
-
攻陷短视频后,Sora将需要72万块H100 GPU
OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界的目光。 近日,投资机构 factorial funds 发表了一篇博文,深入探讨了 Sora 背后的一些技术细节,并对这些视频模型可能产生影响进行了探讨。 最后,文中还...
-
CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 物体姿态估计对于各种应用至关重要,例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据,并且不能应用于测试时未...
-
10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观
想了解更多AIGC的内容: https://www.51cto.com/aigc/ “只需”10万美元,训练Llama-2级别的大模型。 尺寸更小但性能不减的MoE模型来了: 它叫JetMoE,来自MIT、普林斯顿等研究机构。 性能妥妥超过同等规模的Ll...
-
Llama提速500%!谷歌美女程序员手搓矩阵乘法内核
谷歌的美女程序员,将Llama的推理速度提高了500%! 近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码, 图片 她重写了84个新的矩阵乘法内核,使得Llamafile可以更快地读取提示和图像。 与llama.cp...
-
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先...
-
超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 在大模型落地应用的过程中,端侧 AI 是非常重要的一个方向。 近日,斯坦福大学研究人员推出的 Octopus v2 火了,受到了开发者社...
-
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。 在语义表示上,文本嵌入模型将文本转换为高...
-
IT领导者可以从谷歌的GenAI起步不稳中学到什么
谷歌推出 Bard 时,试图对抗 OpenAI 的 ChatGPT,但在首次演示中不幸出现了事实错误。尽管谷歌随后将 Bard 扩展到 Gmail 到 YouTube 等所有平台,但公众最初的焦点仍然是该工具未能达到 OpenAI 响应的质量。 谷歌...
-
[论文笔记]LLaMA: Open and Efficient Foundation Language Models
引言 今天带来经典论文 LLaMA: Open and Efficient Foundation Language Models 的笔记,论文标题翻译过来就是 LLaMA:开放和高效的基础语言模型。 LLaMA提供了不可多得的大模型开发思路,为很多国...
-
生成型人工智能优化框架研究
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介 生成类似人类的文本和语音曾经只有在科幻小说中才成为可能。但是,GPT-3和PaLM等大型语言模型(LLM)的快速发展...
-
中科大等意外发现:大模型不看图也能正确回答视觉问题!
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 大模型不看图,竟也能正确回答视觉问题?! 中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。 他们首先看到像...
-
「有效上下文」提升20倍!DeepMind发布ReadAgent框架
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 基于Transformer的大语言模型(LLM)具有很强的语言理解能力,但LLM一次能够读取的文本量仍然受到极大限制。 除了上下文窗口...
-
大模型投资2024:阿里腾讯,争做一号“金主”
以国内大模型初创企业主要投资方的身份,腾讯和阿里再次站在了“金主爸爸”的位置。 2023年至今,这两家曾经的投资大户不约而同地大幅减少了自己的出手次数。据天眼查公开数据,2023年一整年,腾讯投资仅出手33次,平均每月不足3次。而2021年和2022年,腾...
-
小白也能微调大模型:LLaMA-Factory使用心得
大模型火了之后,相信不少人都在尝试将预训练大模型应用到自己的场景上,希望得到一个垂类专家,而不是通用大模型。 目前的思路,一是RAG(retrieval augmented generation ,在模型的输入prompt中加入尽可能多的“目标领域”的相...
-
论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models
导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接:https://arxiv.org/abs/2307.09288 1 引言 大型语言...
-
AIGC知识库一周精华
元宇宙、大语言模型和智能设计是当前人工智能领域的重要发展趋势。 元宇宙将虚拟和现实世界融合,开启了新的数字化交互时代。 大语言模型的应用和研究不断推进,提示工程和函数调用等工具不断涌现,为人们提供更高效的文本生成和处理能力。 智能设计领域...
-
《AIGCmagic星球》,五大AIGC方向正式上线!让我们在AIGC时代携手同行!限量活动中!
AIGC:AI行业前所未有的新时代 AIGC时代蓬勃的发展势头,ToB和ToC的双重可能性,让AIGC方向的未来不可限量。 根据艾瑞咨询预测,中国的AIGC产业规模在2023年约为143亿元,2028年预计将达到7202亿元,建立完善的AIGC产业生...
-
GPT-5红队测试邮件曝光,最早6月发布?网友在线逼问Altman,数十亿美元超算26年启动
GPT-5已经开始红队测试了? 就在这几天,网上已经有多人晒出了OpenAI发给自己的红队录取通知书。 此前有传闻说,GPT-5将于今年6月发布。看起来,红队测试与模型发布的时间线十分吻合。 有网友直接晒出了自己收到OpenAI邮件邀请的截图。 这...
-
年薪百万美元、马斯克直呼“史上最疯狂”!大厂“AI人才战”爆发
快科技4月6日消息,近日特斯拉CEO马斯克在社交平台上发布了一系列帖子称,OpenAI正在以高薪诱惑特斯拉工程师,并且他们在某些情况下取得了成功。 马斯克表示这是我见过最疯狂的人才战争”,并宣布将提高AI工程师的薪酬。 AI的快速发展也加剧了科技巨头间的竞...
-
【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势
苹果MM1大模型与其他模型相比,具有以下优势和劣势: 优势: 多模态能力:MM1是基于大规模多模态预训练的,这意味着它能够处理和理解多种类型的数据(如文本、图像等),在上下文预测、多图像和思维链推理等方面表现出色[7][10]。 少样本学习能力:...
-
蔡崇信:中国AI技术可能落后美国OpenAI两年
快科技4月5日消息,据媒体报道,阿里巴巴联合创始人、董事长蔡崇信坦诚地指出,在AI技术领域,中国相较于美国存在一定的差距”。他进一步指出,与美国的顶级大型语言模型(LLM)如OpenAI ChatGPT相比,中国可能落后两年”。然而,这并不意味着中国在这一...
-
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调
LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调 文章原始地址:https://onlyar.site/2024/01/14/NLP-LLaMA-Factory-web-tuning/ 引言 大语...
-
llama-factory简介
llamafactory是什么,能干什么 LLaMA-Factory 是一个易于使用的大规模语言模型(Large Language Model, LLM)微调框架,它支持多种模型,包括 LLaMA、BLOOM、Mistral、Baichuan、Qwen ...
-
AIGC批量图生成的一些思考
从技术到先进生产力,从先进装备到作战能力,中间隔了一道GAP。现在AI技术进展很快,开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元,为业务带来实际的价值是我们必须要解决的一个问题。 消费侧技术点 中文clip: 这...
-
【AI】在本地 Docker 环境中搭建使用 Hugging Face 托管的 Llama 模型
目录 Hugging Face 和 LLMs 简介 利用 Docker 进行 ML 格式的类型 请求 Llama 模型访问 创建 Hugging Face 令牌 设...
-
群晖NAS使用Docker部署大语言模型Llama 2结合内网穿透实现公网访问本地GPT聊天服务
文章目录 1. 拉取相关的Docker镜像 2. 运行Ollama 镜像 3. 运行Chatbot Ollama镜像 4. 本地访问 5. 群晖安装Cpolar 6. 配置公网地址 7. 公网访问 8. 固定公网地址 随着ChatGPT...
-
长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 刚刚,人工智能初创公司 Anthropic 宣布了一种「越狱」技术(Many-shot Jailbreaking)—— 这种技术可以用来...
-
OpenAI竞对用256轮对话「灌醉」大模型,Claude被骗造出炸弹!
大模型又被曝出安全问题? 这次是长上下文窗口的锅! 今天,Anthropic发表了自己的最新研究:如何绕过LLM的安全限制?一次越狱不够,那就多来几次! 图片 论文地址:https://www-cdn.anthropic.com/af5633c94ed2...
-
80M参数打平GPT-4!苹果发超强上下文理解模型ReALM,聪明版Siri马上就来
【新智元导读】苹果公司发布了一款参数量仅为80M的最新模型——ReALM,能够将各种形式的上下文转换为文本进行理解,包括解析屏幕、多轮对话以及上下文引用,提升了Siri等智能助手的反应速度和智能程度。 会读心的Siri想不想要? 今天,苹果发布了自家的最新...
-
80M参数打平GPT-4!苹果发超强上下文理解模型,聪明版Siri马上就来
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 会读心的Siri想不想要? 今天,苹果发布了自家的最新模型ReALM,仅需80M参数,就能在上下文理解能力上打平甚至超越GPT-4!...
-
大模型新漏洞!Anthropic警告:新式“多轮越狱”攻破AI防线,或祸起长文本
出品 | 51CTO技术栈(微信号:blog51cto) 撰稿丨诺亚 如何让一个AI回答一个它本不应该作答的问题? 有很多这种所谓的“越狱”技术,而Anthropic的研究人员最近发现了一种新方法:如果首先用几十个危害性较小的问题对大型语言模型(LLM)...
-
普林斯顿首个「开源」AI程序员进场 基于GPT-4,可自动修复bug
普林斯顿大学最近推出了一款名为SWE-agent的AI程序员,这是世界上首个开源的AI程序员,它基于GPT-4技术,能够在GitHub仓库中自动修复bug。这个智能体-计算机接口(ACI)的诞生,标志着AI在软件工程领域的应用迈出了重要一步。 SWE-ag...
-
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果,然而,Transformer 中自注意力带来的二次复...
-
LLM超长上下文查询-性能评估实战
在大型语言模型(LLM)的应用中,有几个场景需要以结构化的方式呈现数据,其中信息提取和查询分析是两个典型的例子。我们最近通过更新的文档和一个专门的代码仓库强调了信息提取的重要性。对于查询分析,我们同样更新了相关文档。在这些场景中,数据字段可能包括字符串、...
-
叠衣服、擦案板、冲果汁,能做家务的国产机器人终于要来了
将家务全部交给机器人的那一天,或许会比想象中更快到来。 还记得会炒菜的斯坦福 ALOHA 机器人吗?现在,中国的初创公司自变量机器人(X Square)展示了同样令人惊艳的能力,甚至更进一步。 在该公司最新展示的 Demo 中,完全基于大模型自主推理的...
-
让Siri不再智障!苹果定义新的端侧模型,“大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%
撰稿丨诺亚 出品 | 51CTO技术栈(微信号:blog51cto) 总被用户吐槽“有点智障”的Siri有救了! Siri自诞生以来就是智能语音助手领域的代表之一,但很长一段时间里,其表现并不尽如人意。然而,苹果的人工智能团队最新...
-
更好、更安全、更不依赖OpenAI,微软的AI新动向,推出大模型安全工具Azure AI
编译丨伊风 出品 | 51CTO技术栈(微信号:blog51cto) 对生成性人工智能(generative AI)的需求正不断增长,而对LLM安全和可靠性的担忧也变得比以往任何时候都更加突出。企业希望能确保为内外部使用而开发的大规模语言模型(LLM)...
-
Paper Digest | GPT-RE:基于大语言模型针对关系抽取的上下文学习
笔记整理:张廉臣,东南大学硕士,研究方向为自然语言处理、信息抽取 链接:https://arxiv.org/pdf/2305.02105.pdf 持...
-
黄学东分享:Zoom AI如何正确地「碾压GPT-4」
去年底,从微软离职加入Zoom的华人AI大佬黄学东以Zoom CTO的身份发表了一篇技术博客,介绍了Zoom推出的联邦AI技术—— 差异化地利用不同成本的AI工具,让能力强成本高的AI完成难度大的任务;成本低能力弱的AI完成简单的任务,从而在完成质量和G...
-
Android 手机部署whisper 模型
Whisper 是什么? “Whisper” 是一个由OpenAI开发的开源深度学习模型,专门用于语音识别任务。这个模型能够将语音转换成文本,支持多种语言,并且在处理不同的口音、环境噪音以及跨语言的语音识别方面表现出色。Whisper模型的目标是提供一...
-
苹果AI放大招?新设备端模型超过GPT-4,有望拯救Siri
在最近的一篇论文中,苹果的研究人员宣称,他们提出了一个可以在设备端运行的模型,这个模型在某些方面可以超过 GPT-4。 具体来说,他们研究的是 NLP 中的指代消解(Reference Resolution)问题,即让 AI 识别文本中提到的各种实体...