-
2023年的深度学习入门指南(20) - LLaMA 2模型解析
2023年的深度学习入门指南(20 - LLaMA 2模型解析 上一节我们把LLaMA 2的生成过程以及封装的过程的代码简单介绍了下。还差LLaMA 2的模型部分没有介绍。这一节我们就来介绍下LLaMA 2的模型部分。 这一部分需要一些深度神经网络的...
-
OpenAI内斗时,Karpathy在录视频:《大型语言模型入门》上线
OpenAI 的风波暂时告一段落,员工也忙着「干活了」。 年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言模型(LLM)的 30 分钟入门讲座,但该讲座当时没录制。因此,他基于这场讲座重新录制了一个长达 1 小时的视频...
-
淘天集团联合爱橙科技开源大模型训练框架Megatron-LLaMA
9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架——Megatron-LLaMA,旨在让技术开发者们能够更方便地提升大语言模型训练性能,降低训练成本,并保持和LLaMA社区的兼容性。测试显示,在32卡训练上,相比HuggingFace上直接获得的...
-
九章云极DataCanvas公司与生态伙伴强强联手,构建人工智能强生态!
11月21日,在「筑基赋能 智向未来」九章云极DataCanvas大模型系列成果发布会上,九章云极DataCanvas公司与人工智能产业链上下游合作伙伴广东民营投资股份有限公司(以下简称“粤民投”)、西藏赛富合银投资有限公司(以下简称“西藏赛富”)、广...
-
中国AI今天的问题,是大模型又多又乱
OpenAI的开发者日活动后,GPTs模式引发了新一轮的AI热潮,开发者调用过分火爆,甚至导致OpenAI服务器一度宕机。随后,花式把玩GPTs的经验,以及围绕这种新形态的巨大争议开始涌现。中国的IT从业者、软件开发者与AI工程师也积极参与讨论,迎来了一场...
-
一文盘点2023人工智能进展,不止大模型而已
2023年大模型千帆竞发,除此外AI领域还有哪些新突破? 来来来,畅销书《Python机器学习》作者Sebastian Raschka的年末总结已经准备好了。 看完才知道: RLHF今年虽然爆火,但实打实用到的模型并不多,现在还出现了替代方案,有望从开...
-
ChatGPT代码生成飙升10%!北大华人一作:细化prompt,大幅改进大模型代码能力
在大模型时代,高质量的代码生成已经强大到,让人惊叹。 从通过HumEval中67%测试的GPT-4,到近来各种开源大模型,比如CodeLlama,有望成为码农编码利器。 然而,现实中,程序员们不会精炼表达需求,因此误导、限制了LLM生成优秀代码的能力。...
-
一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”
如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的? 有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。 很多模型一下子就“现原形”了。 先看绿色部分,这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多,...
-
AIGC入门 - LLM 信息概览
在阅读本文之前,建议阅读文章:《GPT,GPT-2,GPT-3,InstructGPT的进化之路》 本文将介绍以下 LLM OPT LLaMa Alpaca Vicuna Moss chatGLM Baichuan Openbuddy 一、OPT...
-
不是LlaMa套壳!李开复麾下大模型陷套壳争议,团队二次回应来了!
整理丨诺亚、小欧 出品 | 51CTO技术栈(微信号:blog51cto) 昨天科技圈社区Hacker News突然出现一则消息,矛头直指不久前发布的大模型Yi-34B,认为其除了两个张量被重新命名外,完全使用了Llama的架构。 图片 而根据公开信息,...
-
基于LLaMA却改张量名,李开复公司大模型引争议,官方回应来了
前段时间,开源大模型领域迎来了一个新的模型 —— 上下文窗口大小突破 200k,能一次处理 40 万汉字的「Yi」。 这个大模型由创新工场董事长兼 CE0 李开复创立的大模型公司「零一万物」构建,包括了 Yi-6B 和 Yi-34B 两个版本。 根据 H...
-
中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
可以说,AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。 7 月 19 日,Meta 终于发布了免费可商用版本 Llama 2,让开源大模型领域的格局发生了巨大变化。 Llama 2 模...
-
LangChain+ChatGLM整合LLaMa模型(二)
开源大模型语言LLaMa LLaMa模型GitHub地址 添加LLaMa模型配置 启用LLaMa模型 LangChain+ChatGLM大模型应用落地实践(一) LLaMa模型GitHub地址 git lfs clone htt...
-
Text-to-SQL小白入门(五)开源最强代码大模型Code Llama
摘要 本文介绍了Code Llama大模型的基本概括,包含了论文的摘要、结果、结论以及核心方法,对于了解和实践Code Llama有一定帮助。 论文概述 上一篇介绍了指令进化大模型WizardLM,留了一个坑,补上Code Llama论文学习,...
-
百度智能云“千帆大模型平台”最新升级:接入Llama 2等33个模型!
今年3月,百度智能云推出“千帆大模型平台”。作为全球首个一站式的企业级大模型平台,千帆不但提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链,能够帮助企业解决大模型开发和应用过程中的所有问题。 本次千帆大模型平台升级的...
-
[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)
文章目录 LLaMA大模型及其衍生模型 1. LLaMA 2. stanford_alpaca 3. ChatDoctor 4. alpaca-lora 5. Chinese-LLaMA-Alpaca 6. BELLE 大模型综述 A Su...
-
NLP-分词器:SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】
背景 随着ChatGPT迅速出圈,最近几个月开源的大模型也是遍地开花。目前,开源的大语言模型主要有三大类:ChatGLM衍生的大模型(wenda、ChatSQL等)、LLaMA衍生的大模型(Alpaca、Vicuna、BELLE、Phoenix、Chim...
-
全面对比GPT-3.5与LLaMA 2微调
通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示长度,加速API调用,降低成本。 本文作者Sam L'Huillier对GPT-3.5与LLaMA 2的微调进行了基准...
-
ChatGPT禁止又放开!微软哪里闹乌龙?
整理 | 小欧 就在ChatGPT刚刚宕机之时,微软内部网站突然传来一个重磅消息:不再允许员工使用OpenAI的ChatGPT服务。并在通报中称:ChatGPT是一项“第三方外部服务”! 消息一出,迅速引发外界的猜测和关注。要知道微软作为 OpenA...
-
Llama 2 with langchain项目详解(一)
Llama 2 with langchain项目详解(一) 2023年2月25日,美国Meta公司发布了Llama 1开源大模型。随后,于2023年7月18日,Meta公司发布了Llama 2开源大模型,该系列包括了70亿、130亿和700亿等不同参数规模...
-
国内规模最大!阿里巴巴CEO吴泳铭:即将开源720亿参数大模型
快科技11月10日消息,在昨天举行的2023年世界互联网大会乌镇峰会互联网企业家论坛”上,阿里巴巴集团CEO吴泳铭发表了讲话。 吴泳铭表示,阿里巴巴即将开源720亿参数大模型,这将是国内参数规模最大的开源大模型。 这已经不是阿里首次开源大模型了,在今年8月...
-
百度智能云:千帆大模型平台接入Llama 2等33个大模型,上线103个Prompt模板
大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机...
-
探索下一步:红帽“三位一体”护航企业数字化转型
“降本增效是结果,不是过程,但怎么才能实现降本增效?” 带着客户抛出的疑问以及跟客户交流时记下的满满两页笔记,红帽全球副总裁兼大中华区总裁曹衡康匆匆赶到媒体沟通会。数字化转型并非一日之功,在充满经济波动和技术颠覆的环境下,步入数字化转型中场的众多企...
-
上海大模型发展11条:支持大模型人才落户
上海市经信委发布了《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》,旨在推动大规模预训练模型(大模型 的创新发展。 措施提出了以下主要内容:支持大模型创新能力,包括实施大模型创新扶持计划和建立大模型测试评估中心;提升创新要素供给能级,包...
-
让大模型分析csdn文章质量 —— 提取csdn博客评论在文心一言分析评论区内容
文章目录 ⭐前言 ⭐技术栈选择 ⭐前端页面搭建 ⭐后端获取数据暴露接口 ?requests获取数据 ? django 抛出api 接口 ⭐效果 ⭐结束 ⭐前言 大家好,我是yma16,本文分享关于 让大模型分析csdn文章质量...
-
GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC
【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白,研究人员引入了PowerPoint任务完成(PPTC)基准测试,以评估LLM创建和编辑PPT文档的能力。 最近对大型语言模型(例如ChatGPT和GPT-4)进行的评...
-
微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 AI 推理能力”
IT之家 11 月 7 日消息,微软亚洲研究院联合北京大学、西安交通大学等高校,提出了一项名为“从错误中学习(Learning from Mistake,LeMA)”的 AI 训练方法,号称可以通过模仿人类学习知识的过程,来改进 AI 推理能力。 当下...
-
AI视野:xAI首个大模型Grok炸场;李开复官宣开源大模型Yi-34B;ChatGPT原型Gizmo新功能曝光;百度网盘引入大模型智能助理
????大模型动态 李开复官宣全球最强开源大模型Yi-34B 一次可处理40万汉字 零一万物发布全球最强的开源大模型Yi-34B,具备超强的语言理解和处理能力,支持处理40万汉字,在中文指标上表现卓越,标志着中国在大模型领域的重大突破。 项目地址:htt...
-
李开复官宣全球最强开源大模型Yi-34B 一次可处理40万汉字
零一万物推出了「Yi」系列开源大模型,其中Yi-34B在全球开源大模型排行榜上取得了显著成就,击败了其他竞品模型,成为双料冠军,尤其在中文指标上表现卓越。Yi-34B的性能超越了全球其他大模型,拥有强大的语言理解和处理能力,可以满足国内市场的需求。 ht...
-
国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练
国内规模最大的开源大模型来了: 参数650亿、基于2.6-3.2万亿token训练。 排名仅次于“猎鹰”和“羊驼”,性能媲美GPT3.5,现在就能无条件免费商用。 它就是来自深圳元象公司的XVERSE。 根据算力、资源限制和具体任务需求的不同,我们能对...
-
软件质量发展历程, 大模型开启智能测试新时代
自从计算机科学的黎明时期以来,软件质量的发展经历了一系列的转折和里程碑。从最初的功能性需求,到现在的全面考虑功能性、性能效率、兼容性、易用性、可靠性、信息安全性、维护性和可移植性等等,软件质量的定义和重要性都有了显著的提高。 在1960年代和1970年代...
-
vivo自研70亿蓝心大模型7B开源:中文能力国内第一 最适合中国开发者
快科技11月1日消息,今天,2023年vivo开发者大会如期在深圳举行,在发布会上,vivo 正式发布了旗下的自研通用AI大模型矩阵蓝心大模型。 此次发布的蓝心大模型共包含5款,包括10亿蓝心大模型1B、70亿蓝心大模型7B、700亿蓝心大模型70B、13...
-
vivo发布自研AI蓝心大模型 并宣布开源7B自研大模型
vivo在今天举行的开发者大会上发布了自主研发的AI蓝心大模型,同时还推出了新一代的操作系统OriginOS4。 vivo自研的AI蓝心大模型是vivo在AI领域的重要布局之一,该模型具备高效、智能、安全等特性,可以支持多种应用场景。通过自研AI大模型,...
-
阿里云将在11月开源通义千问720亿参数模型
在今日的2023云栖大会上,阿里云CTO周靖人宣布将在11月开源通义千问720亿参数模型。周靖人表示,通义千问72B将成为参数规模最大的中国开源大模型。 此前,阿里云已先后开源通义千问70亿参数模型Qwen7B和140亿参数模型Qwen14B,模型累计下载...
-
北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招
北大团队最新研究发现: 随机token都能诱发大模型出现幻觉! 比如喂给大模型(Vicuna-7B)一段“乱码”,它就莫名其妙弄错了历史常识。 或者是简单修改提示词,大模型也会掉入陷阱。 Baichuan2-7B、InternLM-7B、ChatGL...
-
最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑
花500刀“调教”的70亿参数模型,打败700亿参数的Llama 2! 且笔记本就能轻松跑,效果媲美ChatGPT。 重点:免费、不要钱。 HuggingFace H4团队打造的开源模型Zephyr-7B,鲨疯了。 其底层模型是前段时间爆火、由有着“欧...
-
百川VS智谱,谁是中国的OpenAI?
6月初,外媒曾发出了“谁是中国的OpenAI”的拷问,经历了大模型创业潮之后,大浪淘沙,最终留下的不过寥寥数人。 清华大学几个十字路口外的赛尔大厦,是明星创业者王小川的百川智能,搜狐网络大厦是学院派出身的智谱AI。二者在经历了市场的检验后,成为了最有希望的...
-
AI视野:WPS AI宣布接入WPS Mac版;爱奇艺推出AI搜索;苹果计划明年推出生成式AI功能;DALL-E3易受越狱攻击
???AI应用 爱奇艺推出AI搜索 将生成式AI技术应用于剧情搜索等场景 爱奇艺升级AI搜索,区别于传统搜索第一步只能搜到片名,升级后的爱奇艺AI搜索主打让观众在搜索环节便能一键直达心仪内容。 WPS AI 宣布接入 WPS Mac 版 提供内容生成等功...
-
Testin云测已开展大模型+软件测试的探索 行业领导者的技术创新之路
在信息技术日新月异的时代,软件产业蓬勃发展,对高质量软件的需求不断增加。软件测试作为确保软件质量的重要环节,对于各类软件企业来说都不可或缺。 根据中研普华研究院撰写的《2023-2028年中国软件测试行业深度分析及发展前景预测报告》显示:在软件业较发达...
-
“大模型+”应用落地时,大模型微调如何兼顾效果、成本和可控性?
10月17日,老牌科技巨头百度“文心大模型4.0”的发布,让原本暗潮汹涌的百模大战再次白热化。伴随着越来越多基础大模型迭代速度的日益加快,“大模型+”的应用拐点正在到来。纵观全球市场,预计到2030年,AIGC市场规模将超过万亿人民币,巨大的市场潜力,吸...