-
AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了
AI做数学题,真正的思考居然是暗中“心算”的? 纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在一些复杂任务上的表现也能大幅提升! 一作Jacab Pfau表示:只要花费算力生成额外token就能带来优势,具体选择了什么token无...
-
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
当前最火的大模型,竟然三分之二都存在过拟合问题? 刚刚出炉的一项研究,让领域内的许多研究者有点意外。 提高大型语言模型的推理能力是当前研究的最重要方向之一,而在这类任务中,近期发布的很多小模型看起来表现不错,比如微软 Phi-3、Mistral 8x2...
-
专利大模型的实践与知识问答探索
一、专利大模型背景介绍 智慧芽一直致力于为科技创新和知识产权领域提供信息服务。在小型模型时代(如 Bert),参数量较少,智能理解方面存在局限性。因此,在着手开发大模型之前,智慧芽深入思考了领域聚焦的重要性。在知识产权领域,专利检索、专利对比、标引工作...
-
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门
【新智元导读】近日访谈中,LeCun亲口证实:Meta为购入英伟达GPU已经花费了300亿美元,成本超过阿波罗登月。相比之下,微软和OpenAI打造的星际之门耗资1000亿美元,谷歌DeepMind CEO Hassabis则放出豪言:谷歌投入的,比这个数...
-
Llama 3细节公布!AI产品总监站台讲解:Llama系列超庞大生态系统
除了计算资源和训练数据这些硬实力外,Llama3模型开源的训练思路覆盖了LLM模型的全部生命周期,提供了各种开源生态系统下的工具。 Llama3的开源,再次掀起了一场大模型的热战,各家争相测评、对比模型的能力,也有团队在进行微调,开发衍生模型。 最近,M...
-
「非常接近GPT-4」的WizardLM-2被微软紧急撤回,有什么内幕?
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。 据现在可以查到的 WizardLM-2 发布信息,这是一个「真正媲美 GPT-4」的开源大模型,在复杂聊天、多语言、推理和代理方面的性能得到了提高。 该系列包括三个...
-
开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型
开源大模型,已经开启大卷特卷模式。 全球范围,太平洋两岸,双雄格局正在呼之欲出。 Llama 3中杯大杯刚惊艳亮相,国内通义千问就直接开源千亿级参数模型Qwen1.5-110B,一把火上Hacker News榜首。 不仅相较于自家720亿参数模型性能明...
-
神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观
这场等待「GPT-5」的游戏啥时候才能结束? GPT-5啥时候来?估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布,还是我们可以从边角料的爆料中得知一点点信息,大家对未来将要发布的这一模型充满了期待。 但奥特曼在一次访谈中表示,Op...
-
模型量化与量化在LLM中的应用 | 得物技术
【图片出处:Knowledge Distillation: A survey,2021,p2】 剪枝则是通过靠剪除模型中不重要的权重从而给模型“瘦身”,提高模型的推理效率,为了保证模型的能力,通常剪枝过程也需要伴随着模型基于训练数据的微调。根据剪除权重的...
-
神秘大模型一夜刷屏,能力太强被疑GPT-4.5,奥特曼避而不答打哑谜
一夜之间,大模型话题王,再次易主。 一个神秘模型突然杀入众人视野,能力超越一众开源模型,甚至包括GPT-4。几乎所有人都在谈论它,服务器都被挤爆了。 它就是“gpt2-chatbot”。 (注意啊,是gpt2不是GPT-2) 它有多强? IMO国际数学...
-
Meta应用上AI泛滥 用户抱怨:还能不能让我好好用
4月29日消息,最近有报道称,Meta在其社交平台Facebook和Instagram上大量使用生成式人工智能。但用户则反映,AI的泛滥导致了大量垃圾信息的出现,尤其是在Instagram上,搜索功能被改变用途,使得用户难以进行正常的社交活动。此外,A...
-
AI日报:Awaker 1.0写真视频击败Sora?Sora视频被指大量后期;苹果首款AI平板曝光;百万网友围观博主和AI“谈恋爱”
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、写真视频击败Sora?人大自研...
-
单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源
FP8和更低的浮点数量化精度,不再是H100的“专利”了! 老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6。 测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至...
-
受ChatGPT等利好影响,微软、谷歌最新财报收入大增
微软、谷歌(母公司Alphabet's)分别发布了截至2024年3月31日的季度财务报告,受ChatGPT等生成式AI利好影响,两家企业分别实现大幅度增长。 数据显示,微软营收同比增长17%至619亿美元,超出华尔街分析师的预期,净利润增长20%至219亿...
-
AI小镇现在可以通过Llama3在本地运行 支持Convex、Ollama等服务器
a16z 团队开发的 AI 小镇是一个创新的虚拟城镇项目,现在可以通过 Llama3完全在本地运行。这个项目不仅支持 Convex、Ollama,还可以支持本地 Vite 网络服务器,为开发者提供了一个强大的平台来构建和定制自己的虚拟 AI 社区。 AI...
-
LobeChat支持通过网页版直接调用Ollama 本地模型 体验媲美ChatGPT
LobeChat是一个创新的网页平台,它支持通过网页版直接调用 Ollama 本地模型。这项服务的推出,为用户提供了一种便捷的方式,通过网页界面直接利用开源大模型的能力。 LobeChat的主要特点包括: 本地模型支持: 用户可以在本地安装Ollama...
-
AI日报:当前最强国产Sora大模型Vidu发布;Kimi Chat移动端升级;通义千问开源首个千亿参数模型;苹果计划与 OpenAI 合作
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、清华团队发布视频大模型Vidu...
-
Perplexica:开源AI驱动的问答搜索引擎
Perplexica是一个开源的AI驱动搜索引擎,提供多种搜索模式,旨在为用户提供更精准、更智能的搜索体验。它受到Perplexity AI的启发,不仅能够搜索网络,还能理解并回答用户的问题。 Perplexica的核心功能包括: 本地大型语言模型(LL...
-
阿里智能体“组装工厂”开源!0经验搞定上万Agent并发
让多智能体开发就像搭积木,阿里巴巴通义实验室开源多智能体编程框架与开发平台AgentScope。 该平台专门为多智能体应用开发者打造,旨在提供高易用的编程体验、稳定可靠的运行时保障,并且为开发者提供了分布式和多模态的技术支持。 内置了OpenAI、Das...
-
Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH
大模型力大砖飞,让LLaMA3演绎出了新高度: 超15T Token数据上的超大规模预训练,既实现了令人印象深刻的性能提升,也因远超Chinchilla推荐量再次引爆开源社区讨论。 与此同时,在实际应用层面上,另一个热点话题也浮出水面: 资源有限场景下...
-
震撼!GPT-4 Turbo级国产大模型登场,周冠宇F1赛事数据秒分析惊呆国际大佬
中国的大模型,已经震惊了外国科技圈。 这不,这几天商量大模型的更新,直接让外国网友惊呼:太疯狂了,中国的AI界究竟还有多少我们不知道的巨变? 不怪这些网友太大惊小怪——最近全新升级的日日新·商量大模型5.0(SenseChat V5),在基础能力上再次重...
-
ChatGPT可以开车吗?分享大型语言模型在自动驾驶方面的应用案例
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 人工智能技术如今正在快速发展和应用,人工智能模型也是如此。拥有100亿个参数的通用模型的性能正在碾压拥有5000万个参数的任务特定模型...
-
Docker三分钟搞定LLama3开源大模型本地部署
概述 LLaMA-3(Large Language Model Meta AI 3)是由Meta公司开发的大型开源生成式人工智能模型。它在模型结构上与前一代LLaMA-2相比没有大的变动。 LLaMA-3模型分为不同规模的版本,包括小型、中型和大型,以适...
-
量化、剪枝、蒸馏,这些大模型黑话到底说了些啥?
量化、剪枝、蒸馏,如果你经常关注大语言模型,一定会看到这几个词,单看这几个字,我们很难理解它们都干了些什么,但是这几个词对于现阶段的大语言模型发展特别重要。这篇文章就带大家来认识认识它们,理解其中的原理。 模型压缩 量化、剪枝、蒸馏,其实是通用的神经网络...
-
7个prompt小技巧,让你和AI的对话更有效
向AI工具提供的背景信息越详尽,收到的回复质量越高。 获取初步回答后进一步询问信息 在您越来越频繁地使用ChatGPT等工具时,您会很快意识到初次得到的答案并不总是可以直接采纳的。正如您会向他人提出更多问题以获取更多信息一样,与AI交互时也应如此。这次...
-
Llama 3没能逼出GPT-5!OpenAI怒“卷”To B战场,新企业级 AI 功能重磅推出!
编译 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) Meta 是本周当之无愧的AI巨星!刚刚推出的 Llama 3 凭借着强大的性能和开源生态的优势在 LLM 排行榜上迅速跃升。 按理说,Llama 3在开源的状态下做到了 GPT-...
-
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral...
-
首批中文版Llama3模型来了,解释成语、答弱智吧问题
最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。 和以往的原始 Llama 模型一样,Llama 3 对中文的支持效果欠佳,经常会出现你用中文提问,它用英文或中文+英文回复的现象。因此,要想让国内用户用上该模型,开发者还需对其进行微调...
-
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。 不过,苹果最新放出的论文,我们看到其在开源领域做出的贡献。 近日,苹果发布了 OpenELM,共四种变...
-
融汇14个AI工具构建完美应用
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 上篇:融汇11款AI工具构建完美应用 如您所见,人工智能(AI)应用在近年来得到了长足的发展。从语音助手到软件开发,人工智能已在我们...
-
一文读懂 LLM 的构建模块:向量、令牌和嵌入
在当今信息爆炸的时代,我们不断面临着海量文本数据的挑战。为了有效地处理和理解这些数据,自然语言处理(NLP)领域的研究者们一直在不断探索和创新。而其中一个重要的研究方向就是语言模型(Language Model)。 在这篇文章中,我们将一起探索和理解...
-
微软3.8B模型媲美GPT-3.5!小到用iPhone就能跑起来,网友:Good data is all you need!
撰文、整理 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 这周,“小模型”之战打得可谓精彩非凡,让人目不暇接。前脚,小扎刚在采访中自豪地宣布Llama3 80亿模型几乎与此前Llama2 700亿模型的性能差不多...
-
Meta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了
科幻大片中的AR黑科技,竟走进了现实! 就在刚刚,Meta自家的雷朋智能眼镜,已经开始支持多模态版的Llama 3了!要知道,Llama 3的开源版本还没支持多模态呢。 就在最近,小扎还在访谈中承认愿意开源价值100亿美元的模型,不过,如果涉及到产品侧,...
-
微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了
Llama 3发布刚几天,微软就出手截胡了? 刚刚发布的Phi-3系列小模型技术报告,引起AI圈热议。 其中仅3.8B参数的Phi-3-mini在多项基准测试中超过了Llama 3 8B。 为了方便开源社区使用,还特意设计成了与Llama系列兼容的结...
-
大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五
关于Llama 3,又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。 图片 不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分...
-
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试
上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。 却没想到发布几小时之后,立马被删除了。 有网友突然发现,WizardLM的模型权重、公告帖子全部被删除,并且不再微软集合中,除了提到站点之外,却找不到任何证据证明这个微软的官方项目。...
-
微软发布iPhone可运行的ChatGPT级AI模型Phi-3系列 挑战OpenAI地位
近日,微软推出了一款名为Phi-3系列的小型AI模型,该模型在AI领域引起了广泛关注。Phi-3系列中的Phi-3-mini模型,仅拥有3.8B参数,却在多项基准测试中超越了拥有8B参数的Llama3模型。 微软特别强调,经过4bit量化处理的Phi-3-...
-
AI日报:微软发布iPhone可运行AI模型;全国首例AI声音侵权案判了;Kimi创始人套现数千万美金;中文聊天模型Llama3发布
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、腾讯SaaS产品智能化升级 全...
-
一文了解大语言模型(LLM)
人工智能的发展给我们的生活带来很多不一样的体验。面部识别可以解锁设备,激光雷达可以实现自动驾驶。当2023年,OpenApi的chatGPT可以“理解”人类的语言并与我们进行沟通时,大语言模型的概念出现在我们面前。 在自然语言处理领域的大语言模型(La...
-
新测试基准发布,最强开源Llama 3尴尬了
如果试题太简单,学霸和学渣都能考90分,拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。 大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard,引起广泛关注。...
-
领域模型生产指南
领域模型脱胎于通用大模型,两者有相似之处,但通用大模型在训练时使用的是通识数据集,缺少领域知识,导致企业在应用过程中会发现一些问题。比如,如果我们要做一个滴普科技的智能问答机器人,但通用大模型并没有学习到滴普科技的各种产品信息,缺少先验知识。 目前这个问...
-
五个免费使用ChatGPT API的开源项目
今天给大家介绍Github上5个比较火的免费获取GPT key的项目,希望大家能用到。真正来讲并不是GPT key,而是转发key和转发api接口,但是不管什么原理,最终只要可以实现AI问答的效果,就算完美。我们不讲过程,只要结果。以上都是白嫖的信息差果...
-
Llama 3每秒输出800个token逼宫openAI!下周奥特曼生日或放出GPT-5?
【新智元导读】Llama3的开源,或将催生数十亿美元新产业。发布不到一周的时间,全网各种测试微调都开启了。甚至,Llama3在Groq上的输出速度实现了每秒800个token。 Llama3诞生之后便艳压群雄,开源界已无「模」能敌。 甚至,让网友为Open...
-
AI日报:Model3模型重磅发布;阿里云全面支持Llama 3训练推理;Gorq推出iOS应用;批量去水印工具VSR来了
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Blockade Labs发布...
-
采用OpenAI还是DIY?揭开自托管大型语言模型的真实成本
你自豪地将你的服务标榜为“AI驱动”,通过整合大型语言模型。你的网站首页自豪地展示了你的AI驱动服务带来的革命性影响,通过互动演示和案例研究,这也是你的公司在全球GenAI领域留下的第一个印记。 你的小而忠实的用户基础正在享受提升后的客户体验,并且你可...
-
揭开大型语言模型(LLM)的力量:初创企业如何通过精简集成彻底改变运营方式
大型语言模型(LLM 已成为各种规模企业的游戏规则改变者,但它们对初创企业的影响尤其具有变革性。为了理解其中的原因,让我们来看看初创企业相对于老牌企业有哪些优势,以及为什么AI是它们的重要推动力。 初创企业往往面临预算有限、时间紧迫的局面,即便它们争夺...
-
五种搭建LLM服务的方法和代码示例
在不断发展的大型语言模型(LLMs)领域中,用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中,我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。 1、Anaconda + CPU 我们首先介...
-
阿里云宣布全方位支持Llama 3训练推理 帮助开发者构建自己的大模型
阿里云百炼大模型服务平台近期宣布了一项重要的支持计划,即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务,旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。 主要如下: 免费...
-
微软紧急撤回最先进的AI大模型:居然忘了测试了
快科技4月21日消息,Meta发布超级彪悍的大语言模型Llama 3之后,微软也很快推出了自己的新一代WizardLM2 8x22B,号称迄今最强大,完全超越Claude 3 OpusSonnet、GPT-4等竞品,而且开源,但是马上又把它撤回去了。 没有...
-
Mixtral:数据流中的生成式稀疏专家混合模型
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ Cloudera公司数据流首席工程师Tim Spann 表示,Mixtral-8x7B大型语言模型(LLM 是一个预先训练的生成式稀疏...