-
大模型做时序预测也很强!华人团队激活LLM新能力,超越一众传统模型实现SOTA
大语言模型潜力被激发—— 无需训练大语言模型就能实现高精度时序预测,超越一切传统时序模型。 来自蒙纳士大学、蚂蚁、IBM研究院提出了一种通用框架,结果成功激活大语言模型跨模态处理时序数据的能力。 时序预测有益于城市、能源、交通、遥感等典型复杂系统的决策...
-
2024-03-26 AIGC-大模型学习路线
摘要: 2024-03-26 AIGC-大模型学习路线 大模型学习路线 建议先从主流的Llama开始,然后选用中文的Qwen/Baichuan/ChatGLM,先快速上手体验prompt工程,然后再学习其架构,跑微调脚本 如果要深入学习,建...
-
生成式AI大模型之提示词工程实践
提示工程是一个新兴的领域,专注于开发、设计和优化提示,以增强 LLM 的输出,从而满足您的需求。它为您提供了一种引导模型的行为从而达到您想要实现的结果的方法。 提示工程与微调不同。在微调中,使用训练数据调整权重或参数,目标是优化成本函数。就计算时间和实...
-
全面突围,谷歌昨晚更新了一大波大模型产品
当地时间本周二,谷歌在 Google’s Cloud Next 2024 上发布了一系列 AI 相关的模型更新和产品,包括 Gemini 1.5 Pro 首次提供了本地音频(语音)理解功能、代码生成新模型 CodeGemma、首款自研 Arm 处理器 A...
-
英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡
英伟达的 AI 加速卡,现在有了旗鼓相当的对手。 今天凌晨,英特尔在 Vision 2024 大会上展示了 Gaudi 3,这是其子公司 Habana Labs 的最新一代高性能人工智能加速器。 Gaudi 3 将于 2024 年第三季度推出,英特尔现...
-
陈巍:LLaMA-2的多模态版本架构与训练详解(收录于GPT-4/ChatGPT技术与产业分析)
陈巍:2023年9月,Meta的研究人员推出了AnyMAL(任意模态增强语言模型,Any-Modality Augmented Language Model)。该模型能够理解多种模态信号并生成文本回应,即多模态输入,单模态输出。输入的模态可包括图像、视频、...
-
每周AI新闻(2024年第11周)Meta公布Llama 3集群细节 | Sora将于年内推出 | 全球首个AI软件工程师发布
这里是陌小北,一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的,背诗的里面最会写段子的,写段子的里面代码写得最好的…厨子。 每周日解读每周AI大事件。 欢迎关注同名公众号【陌北有棵树】,关注AI最新技术与资讯。 大厂动向 M...
-
Llama架构比不上GPT2?神奇token提升10倍记忆?
一个 7B 规模的语言模型 LLM 能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾 又将对 LLM 的知识容量...
-
大概是最全的开源大模型LLM盘点了吧!
LLM(Large Language Model, 大型语言模型 是指那些规模庞大、参数数量众多的深度神经网络模型,用于理解和生成自然语言文本。在自然语言处理(NLP)领域有着广泛的应用,因其强大的语言理解和生成能力,能够处理各种复杂的文本任务,包括但不...
-
苹果新AI模型研究Ferret-UI:或将提升Siri,读懂屏幕内容
尽管苹果在生成式 AI 热潮开始后并未推出任何 AI 模型,但近期公司正在着手一些 AI 项目。上周,苹果研究人员分享了一篇揭示公司正在研发的新语言模型的论文,内部消息称苹果正在研发两款 AI 驱动的机器人。 如今,又一份研究论文的发布显示苹果才刚刚开始。...
-
阿里开源的32B大模型到底强在哪里?你知道吗?
阿里巴巴最近开源了一个320亿参数的大语言模型Qwen1.5-32B,网上都说很强很强,那么它到底强在哪里呢? 更高的性价比 Qwen1.5-32B中的B是billion的意思,也就是10亿,32B就代表320亿参数量。 阿里之前还开源过一个大模型Qwe...
-
Intel发布Gaudi 3 AI加速器:4倍性能提升、无惧1800亿参数大模型
快科技4月10日消息,美国当地时间4月9日,Intel举办了一场面向客户和合作伙伴的Intel Vision 2024产业创新大会,做出多项重磅宣布,包括全新的Gaudi 3 AI加速器,包括全新的至强6品牌,以及涵盖全新开放、可扩展系统,下一代产品和一系...
-
【总结】在嵌入式设备上可以离线运行的LLM--Llama
文章目录 Llama 简介 运用 另一种:MLC-LLM 一个令人沮丧的结论在资源受限的嵌入式设备上无法运行LLM(大语言模型)。 一丝曙光:tinyLlama-1.1b(10.1亿参数,需要至少2.98GB的RAM) Llam...
-
破解36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」
【新智元导读】大语言模型的「逆转诅咒」,被解开了。近日,来自Meta FAIR的研究人员推出了反向训练大法,让模型从反方向上学到了事实之间的逻辑,终于改进了这个困扰人们已久的问题。 大语言模型的「逆转诅咒」,被解开了! 这个诅咒在去年9月首次被发现,一时间...
-
盘点六大Devin替代方案:自动化你的编程任务
编译丨诺亚 出品 | 51CTO技术栈(微信号:blog51cto) 上个月,成立不久的初创公司Cognition推出了全球首位“AI工程师”——Devin。 凭借自动生成代码、调试错误及自行部署应用等能力,Devin充分实现了软件开发过程的部分自动...
-
纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了
众所周知,大语言模型还在快速发展,应该有很多可以优化的地方。我用纯 C 语言来写,是不是能优化一大截? 也许很多人开过这样的脑洞,现在有大佬实现了。 今天凌晨,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy...
-
金山办公WPS 365升级 推出 WPS AI 企业版和 WPS 协作
今日,金山办公在北京举行生产力大会,发布了面向组织和企业的办公新质生产力平台 WPS365。WPS365包含升级的 WPS Office、最新发布的 WPS AI 企业版和 WPS 协作,整合文档、AI 和协作能力,实现一站式 AI 办公。 WPS365覆...
-
什么阻碍了GenAI的投资回报?
企业正在向生成式人工智能(GenAI)投资数千亿美元,希望它能改善他们的运营。然而,这些公司中的大多数还没有看到他们在大型语言模型(LLM)和新兴的GenAI上的投资回报。那么,是什么阻碍了我们实现GenAI所承诺的巨大回报呢? 英伟达首席执行官黄仁勋...
-
五种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现
本文将介绍大语言模型中使用的不同令牌遮蔽技术,并比较它们的优点,以及使用Pytorch实现以了解它们的底层工作原理。 令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用,并被用于许多变体(Ro...
-
破除36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」
大语言模型的「逆转诅咒」,被解开了! 这个诅咒在去年9月首次被发现,一时间引起LeCun、Karpathy、马库斯等一众大佬的惊呼。 因为风光无两、不可一世的大模型竟存在着“阿克琉斯之踵”:一个在「A是B」上训练的语言模型,并不能正确回答出「B是A」。...
-
深入探索AI写作:从困惑度到爆发度的挑战与机遇
大家好,小发猫降重今天来聊聊深入探索AI写作:从困惑度到爆发度的挑战与机遇,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 深入探索AI写作:从困惑度到爆发度的挑战与机遇 在AI技术飞速发展的...
-
融汇生成式人工智能,全面提升HPE Aruba Networking Central平台AIOps能力
美国德克萨斯州休斯顿-2024年4月8日-Hewlett Packard Enterprise(NYSE:HPE)日前宣布将在HPE Aruba Networking Central上集成多个生成式AI大语言模型,以拓展其AIOps网络管理能力。HPE...
-
AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞
AI,的确正在改变数学。 最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(Bulletin of the American Mathematical Society)。 围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的...
-
近屿智能独家发布:AIGC大模型工程师和产品经理学习路径图,AI技术不再难懂!
随着人工智能技术的飞速发展,AI取代人工的现象在各个行业和领域变得日益普遍,不少人因此忧心忡忡,担心自己的前途受到AI的冲击。实际上,AI不会取代你的工作,会取代你的是懂AI的人,如何提升自己与他人的知识壁垒,如何学习AIGC?相信在刚刚过去2023这个A...
-
[NLP]使用Alpaca-Lora基于llama模型进行微调教程
Stanford Alpaca 是在 LLaMA 整个模型上微调,即对预训练模型中的所有参数都进行微调(full fine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。 [NLP]理解大型语言模型高效微调(PEFT 因此, Alpac...
-
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和...
-
文心一言赋能问卷生成,打造高效问卷调研工具
当前,各种大语言模型(LLM,Large Language Model)井喷式发展,基于LLM的应用也不断涌现。但是,当开发者基于LLM开发下游应用时,LLM直接生成的结果在格式、内容等方面都存在许多不确定因素,难以与其他业务逻辑代码做数据交互,导致开发者...
-
大模型融合!最新「进化算法」全自动组合开源模型,刷榜多项基准测试
人类智慧的基础并不在于单个聪明的个体,而在于集体智慧。 比如说,我们的社会和经济体系就是建立在由具有不同专业和专长的不同个人组成的许多机构的基础上的。 Sakana AI团队相信,人工智能的发展也将遵循类似的集体道路。 人工智能的未来不会是一个单一的、巨...
-
CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 物体姿态估计对于各种应用至关重要,例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据,并且不能应用于测试时未...
-
拒绝白人与亚洲人同框,Meta图像生成器的「歧视」,被人挖出来了
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 在人工智能构筑的世界中,AI 有时会像人一样存在着某种偏见或倾向性。比如对于大语言模型而言,由于训练数据的影响会不可避免地存在性别偏见...
-
大模型存储实践:性能、成本与多云
大模型应用领域的迅猛发展,也推动着基础技术领域持续探索和进步。文件存储服务在 AI 基础设施中成为不可或缺的重要部分。 在过去 18 个月的时间里,JuiceFS 团队与 MiniMax,阶跃星辰,智谱 AI,面壁智能,零一万物等大模型团队展开了交流与合...
-
通义千问开源Qwen1.5-32B 模型系列
通义千问团队最新发布了 Qwen1.5-32B 模型系列,其中包括 Qwen1.5-32B 和 Qwen1.5-32B-Chat。 这些模型在模型架构上与之前的 Qwen1.5系列基本相同,但参数量减少至32B,旨在提供更高效、更经济实惠的解决方案。Qw...
-
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。 现在,硅谷大厂们已经纷纷出动,买下所有能...
-
OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频
AI 公司在获取高质量训练数据方面遇到的挑战,OpenAI 为了训练其最先进的大型语言模型 GPT-4,使用了超过一百万小时的 YouTube 视频副本。 据了解,该公司通过其 Whisper 音频转录模型转录这些视频,尽管这一做法在法律上具有争议性,Op...
-
Scaling Law被证伪,谷歌研究人员实锤研究力挺小模型更高效,不局限于特定采样技术!
出品 | 51CTO技术栈(微信号:blog51cto) “模型越大,效果越好”,Scaling Law再次被OpenAI带火了,但谷歌的研究人员的最新研究证伪了这一观点。 在周一发表的一项研究中,谷歌研究院和约翰霍普金斯大学的研究人员对人工智能 (AI...
-
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。 在语义表示上,文本嵌入模型将文本转换为高...
-
[论文笔记]LLaMA: Open and Efficient Foundation Language Models
引言 今天带来经典论文 LLaMA: Open and Efficient Foundation Language Models 的笔记,论文标题翻译过来就是 LLaMA:开放和高效的基础语言模型。 LLaMA提供了不可多得的大模型开发思路,为很多国...
-
Cohere推出大模型Command R+ 优化高级检索增强生成功能
Cohere推出了专为企业级工作负载设计的大型语言模型Command R+,该模型优化了高级检索增强生成(RAG)功能,以减少错误生成,并支持10种关键语言的多语言覆盖。 公告地址:https://top.aibase.com/tool/command-...
-
生成型人工智能优化框架研究
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介 生成类似人类的文本和语音曾经只有在科幻小说中才成为可能。但是,GPT-3和PaLM等大型语言模型(LLM)的快速发展...
-
OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4
近日,《华尔街日报》报道称,人工智能公司在收集高质量训练数据方面遇到了困难。随后,《纽约时报》详细介绍了一些公司处理这一问题的方法,其中涉及到了人工智能版权法的模糊灰色区域。 故事从OpenAI开始。该公司迫切需要训练数据,据报道开发了Whisper音频转...
-
中科大等意外发现:大模型不看图也能正确回答视觉问题!
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 大模型不看图,竟也能正确回答视觉问题?! 中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。 他们首先看到像...
-
提示工程中的10个设计模式
我们可以将提示词定义为向大型语言模型(Large Language Model,LLM 提供的一个查询或一组指令,这些指令随后使模型能够维持一定程度的自定义或增强,以改进其功能并影响其输出。我们可以通过提供细节、规则和指导来引出更有针对性的输出,从而使提...
-
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 首个开源「世界模型」来了! 来自UC berkeley的研究人员发布并开源了LWM(LargeWorldModel)系列模型: 论文...
-
ChatGPT现在能帮你P图了,只需简单说几个字
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 现在,不论是网页、iOS 还是安卓版的 ChatGPT,都可以用上 DALL-E 3 强大的编辑图像功能了。 OpenAI 的 DA...
-
AIGC知识库一周精华
元宇宙、大语言模型和智能设计是当前人工智能领域的重要发展趋势。 元宇宙将虚拟和现实世界融合,开启了新的数字化交互时代。 大语言模型的应用和研究不断推进,提示工程和函数调用等工具不断涌现,为人们提供更高效的文本生成和处理能力。 智能设计领域...
-
AIGC在广告创意上的实践
1 引言 1.1 背景 随着抖音、小红书等新媒体的快速崛起,新媒体广告需求日益增大。而新媒体广告投放的图片和文案创意占用了运营工作者大量的精力和时间。文案、图片、视频广告创意制作难度大、效率低、成本高、周期长的问题日益凸显。如何快速的完成广告创意,...
-
年薪百万美元、马斯克直呼“史上最疯狂”!大厂“AI人才战”爆发
快科技4月6日消息,近日特斯拉CEO马斯克在社交平台上发布了一系列帖子称,OpenAI正在以高薪诱惑特斯拉工程师,并且他们在某些情况下取得了成功。 马斯克表示这是我见过最疯狂的人才战争”,并宣布将提高AI工程师的薪酬。 AI的快速发展也加剧了科技巨头间的竞...
-
【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势
苹果MM1大模型与其他模型相比,具有以下优势和劣势: 优势: 多模态能力:MM1是基于大规模多模态预训练的,这意味着它能够处理和理解多种类型的数据(如文本、图像等),在上下文预测、多图像和思维链推理等方面表现出色[7][10]。 少样本学习能力:...
-
龙盈智达&Fabarta:基于图智能和 AIGC 技术的金融营销解决方案
导读 在金融行业的营销活动中,如何获取潜在客户以及判定企业风险是银行重点关注的方向。本方案基于 ArcGraph 图数据库和图智能分析技术,帮助企业筛选潜在客户,通过股权穿透、实控人分析自动识别风险。通过大模型企业知识中台,用户可以利用自然语言对话的方式查...
-
蔡崇信:中国AI技术可能落后美国OpenAI两年
快科技4月5日消息,据媒体报道,阿里巴巴联合创始人、董事长蔡崇信坦诚地指出,在AI技术领域,中国相较于美国存在一定的差距”。他进一步指出,与美国的顶级大型语言模型(LLM)如OpenAI ChatGPT相比,中国可能落后两年”。然而,这并不意味着中国在这一...