-
LLMs模型速览(GPTs、LaMDA、GLM/ChatGLM、PaLM/Flan-PaLM、BLOOM、LLaMA、Alpaca)
文章目录 一、 GPT系列 1.1 GPTs(OpenAI,2018——2020) 1.2 InstructGPT(2022-3) 1.2.1 算法 1.2.2 损失函数 1.3 ChatGPT(2022.11.30) 1.4 ChatG...
-
四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍! 而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。 有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。 近日,来自得克萨斯农...
-
AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了
近年来,大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态...
-
Llama~transformers搭建
本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼 。 并且训练它来实现一个有趣的实例:两数之和。 输入输出类似如下: 输入:"12345+54321=" 输出:"66666" 我们把这个任务当做一个...
-
AI平台:YMI.AI-快捷、高效的人工智能創作平台
YMI.AI-快捷、高效的人工智能創作平台 登录 / 注册 搜索创建机器人我的机器人订阅社区账户设置发送反馈Windows 版本下载 安装说明 使用文档 联系我们关于-服务条款-隐私政策-退款图片上传图片上传 YMIGPT3....
-
大模型入局传统算法,LLMZip基于LLaMA-7B实现1MB文本压缩率90%!
论文链接: https://arxiv.org/abs/2306.04050 随着以ChatGPT、GPT-4为代表的AI大模型逐渐爆火进入公众视野,各行各业都开始思考如何更好的使用和发展自己的大模型,有一些评论甚至认为大模型是以人工智能为标志的...
-
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其...
-
聊聊拉长LLaMA的一些经验
Sequence Length是指LLM能够处理的文本的最大长度,越长,自然越有优势: 更强的记忆性。更多轮的历史对话被拼接到对话中,减少出现遗忘现象 长文本场景下体验更佳。比如文档问答、小说续写等 当今开源LLM中的当红炸子鸡——LLaMA...
-
llama_index中query_engine的response_mode详解
文章目录 0. 前言 1. ResponseMode: tree_summarize (总结摘要-最优) 2. ResponseMode: generation 3. ResponseMode: no_text 4. ResponseMode:...
-
Llama中文社区开源预训练Atom-7B-chat大模型体验与本地化部署实测(基于CPU,适配无GPU的场景)
一、模型简介 原子大模型Atom由Llama中文社区和原子回声联合打造,在中文大模型评测榜单C-Eval中位居前十(8月21日评测提交时间)。 Atom系列模型包含Atom-7B和Atom-...
-
网文大模型,懂网文吗?
“AIGC不会取代作家,它是创作的金手指。” 阅文集团CEO侯晓楠曾在发布会上如此表示。如今,距离阅文集团发布国内网络文学行业首个大模型“阅文妙笔”和基于这一大模型的应用产品“作家助手妙笔版”,已经快半年,但从各大平台的反响来看,阅文的产品似乎尚未在作者端...
-
通义千问72B模型荣登大模型评测平台OpenCompass榜首
中国权威的大型模型评估平台OpenCompass最近更新其排名,通义千问72B模型以67.1的高分荣登榜首。 OpenCompass是由上海人工智能实验室推出的开源大型模型评估平台,其评估范围涵盖学科、语言、知识、理解和推理五个维度,能够全面评估大型模型的...
-
BlueLM蓝心大模型好不好用 手机AI大模型推荐
BlueLM 蓝心大模型是 vivo 研发的一种通用人工智能语言模型。它是基于 Transformer 架构的,并使用了大量的文字和代码数据进行训练。蓝心大模型软件的体验入口在哪呢,这里我们来看下蓝心大模型的官方体验入口。 >>>点击前...
-
大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2
增加LLM上下文长度可以提升大语言模型在一些任务上的表现,这包括多轮长对话、长文本摘要、视觉-语言Transformer模型的高分辨4k模型的理解力以及代码生成、图像以及音频生成等。 对长上下文场景,在解码阶段,缓存先前token的Key和Value(K...
-
智源发布FlagAttention算子集 适配多种大模型训练芯片
为了满足大模型对计算资源的需求,智源研究院开发了 FlagAttention 项目,旨在构建一套适配多种芯片的大模型核心算子集合。 该项目选择使用 Triton 作为开发语言,通过 Triton 的开放性和易用性,使得 FlagAttention 不仅支持...
-
文心一言初次体验,说说感觉~
文心一言,被称为国内版ChatGPT,一直被寄予厚望。 在未出来前,网络上都是各种调侃。 甚至还用ChatGPT来调侃。 但是在发布会的时候,感觉李彦宏关于文心一言讲了很多东西。 但是吧,又感觉啥也没讲,说话底气还不足,又加上还...
-
大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种
大模型的“5年高考3年模拟”数学题来了,还是加强强强版! 微软、加州大学洛杉矶分校(UCLA)、华盛顿大学(UW)联合打造全新多模态数学推理基准数据集。 名为“MathVista”。 涵盖各种题型共6141个问题,来源于28个现有的多模态数据集和3个新标...
-
Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
现在ChatGPT等大模型一大痛点: 处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。 FlashAttention作者Tri Dao参与提出的新架构,成为有力挑战者,引起大量关注: Mamba(曼巴,一种蛇),在语...
-
中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用
“ Meta 开源 LLAMA2 后,国内出现了不少以此为基座模型训练的中文模型,这次我们来看看其中一个不错的中文模型:Chinese-LLaMA-Alpaca-2 。” 01 — 目前在开源大模型中,比较有名的是Meta的LLAM...
-
Google Bard vs ChatGPT:哪一个更适合创造富有创造性的文学作品?
1、Google Bard,ChatGPT特点、用途、性能和应用场景等方面的讨论 首先,我们来看看Google Bard和ChatGPT的特点。 Google Bard是一种基于AI的诗歌生成器,使用了深度学习技术和自然语言处理技术,旨在创造富有想象力...
-
通义千问720亿参数模型开源,率先实现“全尺寸全模态”开源
12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。 在英语任务上,Qwen-72B在MMLU基准测...
-
【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比
LLama [GPT3] 使用RMSNorm(即Root Mean square Layer Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer normalization。 [...
-
ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议
如果我不停地让 ChatGPT 干一件事,直到把它「逼疯」会发生什么? 它会直接口吐训练数据出来,有时候还带点个人信息,职位手机号什么的: 本周三,Google DeepMind 发布的一篇论文,介绍了一项让人颇感意外的研究成果:使用大约 200 美元...
-
讯飞智文官网体验入口 AI办公软件哪个好用
讯飞智文是一款人工智能文档创作平台,它由科大讯飞股份有限公司开发和推出。它可以根据用户的输入内容,自动生成高质量的文档,包括文章、PPT、视频等多种格式。它基于讯飞星火认知大模型,支持处理各种内容格式,包括一句话主题、长文本、音视频等多种形式。它不仅可以提...
-
更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%
关于大模型注意力机制,Meta又有了一项新研究。 通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。 而且这种机制不需要微调或训练,只靠Prompt就能让大模型的准确率上升27%。 作者把这种注意力机制命名为“System 2...
-
Claude 2、ChatGPT、Google Bard优劣势比较
Claude 2: 优势:Claude 2能够一次性处理多达10万个tokens(约7.5万个单词)。 tokens数量反映了模型可以处理的文本长度和上下文数量。tokens越多,模型理解语义的能力就越强)。它在法律、数学和编码等多个领域表现出色,在...
-
淘天集团联合爱橙科技开源大模型训练框架Megatron-LLaMA
9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架——Megatron-LLaMA,旨在让技术开发者们能够更方便地提升大语言模型训练性能,降低训练成本,并保持和LLaMA社区的兼容性。测试显示,在32卡训练上,相比HuggingFace上直接获得的...
-
OpenAI,请重新思考 Retrieval Assistant 的方案
作者:栾小凡 Zilliz 合伙人、技术总监 近期, OpenAI 在首届开发者大会上公布了系列最新进展,引发各大媒体和从业人员的广泛关注。 其中最引人注目的是全新推出的 GPT-4 Turbo ——一个更经济、更高效的服务版本,可以显著提升用户体验。...
-
重磅!清华最新报告:文心一言超越ChatGPT 3.5
点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 今年国内厂商已发布很多大语言模型,其中最具代表性的产品有:百度的文心一言、阿里巴巴的通义千问、科大讯飞的星火等,最具代表性的开源工作有:ChatGLM、MOSS、Ba...
-
LLM幻觉问题全梳理!哈工大团队50页综述重磅发布
幻觉,老朋友了。 自打LLM进入我们的视野,幻觉问题就一直是一道坎,困扰着无数开发人员。 当然,有关大语言模型幻觉的问题已经有了无数研究。 最近,来自哈工大和华为的团队发表了一篇50页的大综述,对有关LLM幻觉问题的最新进展来了一个全面而深入的概述。 这...
-
openai开源的whisper在huggingface中使用例子(语音转文字中文)
openai开源的语音转文字支持多语言在huggingface中使用例子。 目前发现多语言模型large-v2支持中文是繁体,因此需要繁体转简体。 后续编写微调训练例子 GitHub地址: https://github.com/openai/whispe...
-
五个可以无限免费的AI写作工具
目前有不少优秀的AI写作助手工具,为用户提供免费的写作生成服务。我推荐5个无限免费的AI写工具如下: 1. ChatGPT: 这是OpenAI研发的大规模语言模型,可以进行智能写作和创意脑storm。它可以根据提示生成不同格式、风格的长文本,如故事、说...
-
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市 当中经历丰富多彩的生活。然而,既然人类玩家能够在洛圣都里尽情遨游完成若干任务,我们是否也能有一...
-
文本生成高精准3D模型,北京智源AI研究院等出品—3D-GPT
北京智源AI研究院、牛津大学、澳大利亚国立大学联合发布了一项研究—3D-GPT,通过文本问答方式就能创建高精准3D模型。 据悉,3D-GPT使用了大语言模型的多任务推理能力,通过任务调度代理、概念化代理和建模代理三大模块,简化了3D建模的开发流程实现技术民...
-
Meta最新模型LLaMA细节与代码详解
Meta最新模型LLaMA细节与代码详解 0. 简介 1. 项目环境依赖 2. 模型细节 2.1 RMS Pre-Norm 2.2 SwiGLU激活函数 2.3 RoPE旋转位置编码 3. 代码解读 3.1 tokenizer 3.2 m...
-
vivo开源蓝心大模型BlueLM-7B系列 后续还将开源13B以及多模态7B-vl模型
近日,vivo AI正式开源了BlueLM-7B 基础 (base) 模型和7B 对话 (chat 模型,同时开源了支持32K 的长文本基础 (base 模型和对话 (chat 模型。 具体特性如下: vivo表示,后续还将开源13B 模型和支持...
-
大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干
随着游戏制作技术的不断发展,电子游戏已然成为现实世界的模拟舞台。 以游戏《侠盗猎车手》(GTA)为例,在GTA的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市)当中经历丰富多彩的生活。 然而,既然人类玩家能够在洛圣都里尽情遨游完成若干任务,我们...
-
加量降价!OpenAI推出史上最强ChatGPT,人人可自定义GPT,GPT商店本月上线
很快,GPT系列都将可以通过GPT商店访问。 是的,这是在OpenAI首次举办的首次开发者大会DevDay上,官方亲自宣布的消息。 在旧金山的开发者大会上,除了官宣GPT商店外,OpenAI还表示会有一款更便宜的GPT-4,为开发者在应用程序中的使用...
-
李开复领队开源大模型 Yi,40万字上下文窗口破纪录
由李开复博士亲自下场创办的零一万物(01.ai),自3月底官宣成立后,于近日发布并开源了两个版本的中英文大模型 Yi-6B 和 Yi-34B。 在线上发布环节,李开复博士重点介绍了 Yi 系列大模型的三处性能亮点: 全球最长200K 上下文窗口,免费开...
-
李开复带队创办!零一万物发布首款大模型Yi:号称世界最强
快科技11月6日消息,近日,创新工场董事长兼CEO李开复带队创办的AI大模型创业公司零一万物宣布,正式发布首款研发的最强开源人工智能大模型系列Yi。 此次发布的首个公开版本共包括两款:Yi-6B和Yi-34B,其数据参数量分别为60亿和340亿,...
-
马斯克版ChatGPT爆火来袭!不用Python,11人爆肝两个月
马斯克突然出手截胡,抢在OpenAI开发者大会前发布大模型Grok。 与其他ChatGPT类产品不同,Grok可以实时从?推文中获取最新知识,比如马斯克刚刚与Joe Rogan的最新访谈。 图片 巨量、实时且独特的?数据构成了Grok的最大护城河,早在7...
-
全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
国内大模型创业公司,正在技术前沿创造新的记录。 10 月 30 日,百川智能正式发布 Baichuan2-192K 长窗口大模型,将大语言模型(LLM)上下文窗口的长度一举提升到了 192K token。 这相当于让大模型一次处理约 35 万个汉字,长度...
-
正面硬刚OpenAI!智谱AI推出第三代基座模型,功能对标GPT-4V,代码解释器随便玩
国产大模型估值最高创企,为何是智谱AI? 仅用4个月时间,这家公司就甩出最新成绩证明了自己—— 自研大模型ChatGLM3,不止是底层架构,就连模型功能都进行了全方位大升级。 性能上,最直观的表现就是“疯狂屠榜”,所有50个大模型公开性能测评数据集中,拿下...
-
谷歌20亿美元砸向Anthropic:大模型军备竞赛升级
据华尔街日报、路透社等媒体报道,Alphabet 旗下谷歌公司发言人本周五表示,该公司已同意向人工智能公司 Anthropic 投资至多 20 亿美元(约合 146 亿人民币)。 该发言人表示,该公司已向这个 OpenAI 的重要竞争对手预先投资 5...
-
AI视野:高通发布骁龙X Elite芯片;AutoGPT获1200万美元融资;AI社交产品Airchat火了;百度Comate智能代码助手上线SaaS版本
???AI新鲜事 高通发布骁龙X Elite芯片 电脑可运行130亿参数大模型 高通发布骁龙X Elite芯片,成为全球性能最强的CPU,能在PC上运行130亿参数的大模型,实现离线AI应用。 爆火智能体项目AutoGPT获1200万美元融资 Auto...
-
Meta推大模型记忆增强方法MemWalker 靠prompt就能完成,无需额外训练
一项名为MemWalker的新技术,使大型语言模型能够克服其窗口长度的限制,从而可以处理更长的文本并回答相关问题,而无需进行额外的训练。这一技术的开发团队使用了一种树形记忆策略,该策略的工作原理包括两个主要阶段:记忆树构建和导航检索。 图源备注:图片由A...
-
讯飞星火和文心一言有什么区别?讯飞文心一言哪个厉害
讯飞星火和文心一言是两个不同的产品,各自有其特点和优势。那么讯飞星火和文心一言有什么区别哪个更厉害呢?下面就给大家带来讯飞星火和文心一言的特点介绍。 1. 讯飞星火: 讯飞星火认知大模型可用于语言理解、知识问答、代码编写、逻辑推理、数学解题等场景。讯飞星火...
-
最高20倍!压缩ChatGPT等模型文本提示,极大节省AI算力
在长文本场景中,ChatGPT等大语言模型经常面临更高算力成本、更长的延迟以及更差的性能。为了解决这三大难题,微软开源了LongLLMLingua。 据悉,LongLLMLingua的核心技术原理是将“文本提示”实现最高20倍的极限压缩,同时又可以准确评估...
-
4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法
只有4k窗口长度的大模型,也能阅读大段文本了! 普林斯顿的华人博士生的一项最新成果,成功“突破”了大模型窗口长度的限制。 不仅能回答各种问题,而且整个实现的过程全靠prompt就能完成,不需要任何的额外训练。 研究团队创建了一种名为MemWalker的...
-
Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树
到底什么才是LLM长上下文模型的终极解决方案? 最近由普林斯顿大学和Meta AI的研究者提出了一种解决方案,将LLM视为一个交互式智能体,让它决定如何通过迭代提示来读取文本。 论文地址:https://arxiv.org/abs/2310.05029...