-
大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
LLaMA-Factory ——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型,并且提供了丰富的训练算法,包括增量预训练、多模态指令监督微调、奖励模型训练等。 LLaMA-Factory的优势在于其简单易用的界面和强大的功能。用户可以在不编写...
-
使用 CTranslate2 实现 Faster Whisper 的加速转录
使用 CTranslate2 实现 Faster Whisper 的加速转录 近年来,语音识别技术得到了快速发展。OpenAI 的 Whisper 模型作为其中的佼佼者,以其高精度和强大的性能广受欢迎。然而,其较长的推理时间和高内存消耗也成为了限制其应...
-
利用 FP8 量化加速 Llama-3-70B 推理
本文针对在 Amazon P5 (H100 GPU 上部署 Llama-3-70b FP8 精度模型的两种方案选型(Trion 及 LMI – Large Model Inference 容器)进行了探索,同时提供了基于 FMBench 的性能评估的最佳...
-
将LLaMA模型导出为ONNX格式的教程
将LLaMA模型导出为ONNX格式的教程 export_llama_to_onnx export llama to onnx 项目地址: https://gitcode.com/gh_mirrors/ex/export_llama_to_onn...
-
GPUStack正式发布: 为大模型而生的开源GPU集群管理器
经过 Seal 研发团队几个月来持续的开发和测试,我们满怀期待及热情地发布新的产品 GPUStack,GPUStack 是一个用于运行LLM(大型语言模型)的开源GPU集群管理器。尽管如今大语言模型作为公共的云上服务已经被广泛推广并在公有云上变得更加易于使...
-
LLama 3 跨各种 GPU 类型的基准测试
2024 年 4 月 18 日,AI 社区对 Llama 3 70B 的发布表示欢迎,这是一款最先进的大型语言模型 (LLM)。该型号是 Llama 系列的下一代产品,支持广泛的用例。该模型 istelf 在广泛的行业平台上表现良好,并提供了新功能,包括改...
-
突发!OpenAI秘密武器”草莓“今秋发布!推理能力远超现有AI!
刚刚,The Information 透露,OpenAI 即将发布一款名为“草莓(Strawberry)”的全新AI推理引擎。 这一新型AI不仅具备强大的数学和编程推理能力,还远超目前市场上的现有模型,令行业内外为之震动。 你可能已经习惯了ChatGPT、...
-
WhisperS2T:加速语音转文本的高效解决方案
WhisperS2T:加速语音转文本的高效解决方案 WhisperS2TAn Optimized Speech-to-Text Pipeline for the Whisper Model Supporting Multiple Inference E...
-
SD差点挂掉,后备军们兴奋入场,AI生图应用正在爆发?
首先是由称得上 SD 原班人马的黑森林实验室推出的 FLUX.1。黑森林实验室由 Stable Diffusion 的核心开发者 Robin Rombach 领衔创立,团队成员基本上都是 Stable Diffusion3的作者,其中三名元老级成员还是 S...
-
利用多Lora节省大模型部署成本|得物技术
一、背景 近期,我们在大模型集群的部署过程中遇到了一些挑战。公司有多个业务场景,每个场景都基于自身的数据进行微调,训练出相应的大模型并上线。然而,这些场景的调用量并不高,同时大模型的部署成本较为昂贵,这造成了资源的浪费。 本文将介绍我们如何利用多Lor...
-
摩尔线程GPU牵手东华软件:AI大模型适配已完成
快科技7月30日消息,摩尔线程、东华软件云筑AI创新中心联合宣布,双方已完成AI大模型推理测试与适配。 基于摩尔线程的全功能GPU国产算力,东华软件打造了AI Agent平台智多型(A.I.Cogniflex)”,基于私有化大模型,安全可信。 该平台集成了...
-
从14核CPU到AI游戏,浅析Arm新架构的更多细节
前段时间,我们三易生活已经给大家分析过Arm最新一代的CPU和GPU架构设计,不过当时的资料主要还是来源于官方博客文章,以及面向大众公布的相关信息。 考虑到这些资料的宣传目的,它们通常并不会讲得特别详细,特别是在一些技术细节、研发背景等方面往往会比较为缺...
-
手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍
苹果一出手,在手机等移动设备上部署大模型不可避免地成为行业关注焦点。 然而,目前在移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。 即使是苹果,目前也需要与OpenAI合作,通过将云端GPT-4...
-
语音识别的未来已来:深入了解faster-whisper的突破性进展【高精度语音识别模型,完全免费开源】
faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。f...
-
本地使用Groq Llama 3 70B的逐步指南
译者 | 布加迪 审校 | 重楼 本文介绍了如何使用Groq LPU推理引擎在Jan AI和VSCode中生成超快速响应。 每个人都致力于构建更好的大语言模型(LLM ,而Groq专注于AI的基础设施方面,旨在确保这些大模型更快速响应。 本教程将介绍...
-
70B模型秒出1000token,代码重写超越GPT-4o,来自OpenAI投资的代码神器Cursor团队
70B模型,秒出1000token,换算成字符接近4000! 研究人员将Llama3进行了微调并引入加速算法,和原生版本相比,速度足足快出了快了13倍! 不仅是快,在代码重写任务上的表现甚至超越了GPT-4o。 这项成果,来自爆火的AI编程神器Curso...
-
一文读懂多家厂商的大模型训练、推理、部署策略
大合影 get ✅ 披萨和礼物不能少! 接下来进入主题演讲回顾环节。可扫描下方二维码、关注“OSC 开源社区”视频号,进入“直播回放”页面查看完整视频回顾: 刘昊:大模型分析与趋势展望 武汉人...
-
通透!机器学习各大模型原理的深度剖析!
通俗来说,机器学习模型就是一种数学函数,它能够将输入数据映射到预测输出。更具体地说,机器学习模型就是一种通过学习训练数据,来调整模型参数,以最小化预测输出与真实标签之间的误差的数学函数。 机器学习中的模型有很多种,例如逻辑回归模型、决策树模型、支持向量...
-
知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践
本文为蚂蚁集团开发工程师王少飞在TuGraph Meetup北京站的演讲,主要介绍了蚂蚁知识图谱平台经过多年金融领域业务沉淀的知识语义增强可编程框架SPG,及TuGraph作为执行引擎在图谱推理过程的作用。 作者介绍: 王少飞,蚂蚁知识图谱推理开发工程师...
-
不牺牲算法,不挑剔芯片,这个来自中科院的团队正在加速国产AI芯片破局
在《沙丘》构建的未来世界里,「得香料者得天下」。但在生成式 AI 席卷的智能世界里,得 GPU 者得天下。 前段时间,外媒 The Information 曝出了一则重磅消息:微软和 OpenAI 正在规划一个雄心勃勃的数据中心项目 —— 建造一台名...
-
扩散模型攻克算法难题,AGI不远了!谷歌大脑找到迷宫最短路径
「扩散模型」也能攻克算法难题? 图片 一位博士研究人员做了一个有趣的实验,用「离散扩散」寻找用图像表示的迷宫中的最短路径。 图片 作者介绍,每个迷宫都是通过反复添加水平和垂直墙生成的。 其中,起始点和目标点随机选取。 从起点到目标点的最短路径中,随机采样...
-
超快的 AI 实时语音转文字,比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper
faster-whisper 这个项目是基于 OpenAI whisper 的模型,在上面的一个重写。 使用的是 CTranslate2 的这样的一个库,CTranslate2 是用于 Transformer 模型的一个快速推理引擎。 在相同精度的情况...
-
【在线回放】NVIDIA GTC 2024 大会 | 如何降低 AI 工程成本?蚂蚁从训练到推理的全栈实践
本文内容来源于蚂蚁集团 AI Infra部门负责人张科,在 GTC 2024 大会 China AI Day 线上专场的演讲。在演讲中张科分享了 AI 工程当前的现状和主要挑战,以及蚂蚁集团在 AI 工程领域的实践经验和开源项目,也欢迎 AI 工程领域的同...
-
腾讯发布自研游戏AI引擎:3D城市布局效率提升百倍,UGC工具已上线《元梦之星》
腾讯游戏,现在连引擎都有AI味儿了—— 就在游戏开发者大会(GDC)上,腾讯刚刚发布自研游戏AI引擎GiiNEX。 官方介绍,基于生成式AI和决策AI技术,GiiNEX可以支持游戏从研发到运营的全生命周期需求。 具体来说,无论是AI NPC的对话生成,还是...
-
开发效率提升100倍!腾讯自研游戏AI引擎GiiNEX发布
快科技3月21日消息,据GiiNEX游戏AI引擎”公众号介绍,在2024全球游戏开发者大会(GDC)上,腾讯发布自研游戏A引擎GiiNEX。 GiiNEX利用大模型等生成式AI技术,面向AI NPC、场景制作、内容生成等多个场景提供支持。 其AIGC能力包...
-
微软“办公新时代”活动前瞻,主打 AI:新画图应用、提高游戏帧率等
3 月 8 日消息,微软已敲定北京时间 3 月 22 日凌晨 1 点举办线上新品发布会,主题为“办公新时代”,预估主要内容是 Copilot、Windows 和 Surface,利用 AI 提高用户生产力。 根据 Windows Latest 报道,微...
-
PPIO王闻宇:论GPU的过去、现在和未来|AIGC基石思考之算力哲学
00 前言:算力与GPU 算力,即计算能力(Computing Power)。更具体来说,算力是通过对信息数据进行处理,实现目标结果输出的计算能力。 最早的算力引擎。是人类的大脑,后来演变成草绳、石头、算筹(一种用于计算的小棍子)、算盘。到...
-
Gemma.cpp官网体验入口 谷歌Gemma AI模型下载地址
Gemma.cpp是谷歌为Gemma模型开发的轻量级、独立的C++推理引擎。它专注于为Gemma 2B和7B模型提供简洁、直接的实现,旨在支持研究和实验用例,易于嵌入其他项目且具有高度的可修改性。gemma.cpp利用Google Highway库,优化了...
-
比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
【新智元导读】卷疯了!世界最快的大模型Groq一夜之间爆火,能够每秒输出近500个token。如此神速的响应,背后全凭自研的LPU。 一觉醒来,每秒能输出500个token的Groq模型刷屏全网。 堪称是「世界上速度最快的LLM」! 相比之下,ChatG...
-
下一代Edge AI的应用初探
如您所见,AI已不再只是科幻电影的经典主题,它正在以惊人的速度被应用到我们日常生活中的方方面面,并从个人关系到工作项目上,逐渐改变着我们的想法或行为。 其中,一个最为典型的领域当属NextGEN Edge AI(下一代边缘人工智能)应用。它能够通过诸如...
-
检测路在何方?YOLOv8终极指南
本文经自动驾驶之心公众号授权转载,转载请联系出处。 YOLOv8是计算机视觉领域的最新发展,它是一种用于目标检测、实例分割和分类的最新先进模型。除了对模型架构本身的改进之外,YOLOv8通过一个用于使用YOLO模型的PIP包为开发者提供了一个新的友好界...
-
5.28 深圳活动|Jina AI 生态助力云原生场景下的 AIGC 应用开发
亚马逊云科技 Community Day 将于 5 月 28 日 在深圳南山区海德酒店 11 楼举办,Jina AI 软件工程师付杰将带来 《Jina AI 生态助力云原生场景下的 AIGC 应用开发》 的主题演讲。 Community Day 是亚马逊云...
-
奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞
这一次,人工智能算法在数学奥林匹克竞赛(IMO)上取得了重大成绩突破。 在今天发表的国际权威期刊《自然》杂志最新一期上,论文《Solving olympiad geometry without human demonstrations》向世人介绍了 A...
-
谷歌数学AI登Nature:IMO金牌几何水平,定理证明超越1978年吴文俊法
谷歌DeepMind再发Nature,Alpha系列AI重磅回归,数学水平突飞猛进。 AlphaGeometry,无需人类演示达到IMO金牌选手的几何水平。 有当年AlphaZero无需人类知识学围棋《Mastering the game of Go...
-
基于OpenAI的Whisper构建的高效语音识别模型:faster-whisper
1 faster-whisper介绍 faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率...
-
最新AI智能写作回答系统源码 附完整的搭建教程
随着人工智能技术的快速发展,AI在各个领域的应用越来越广泛。在写作领域,AI智能写作回答系统已经成为一种新型的写作工具,可以帮助人们快速、准确地生成文章,提高写作效率和质量。 以下是部分代码的示例: 系统的特色功能一览: 1.智能写作:系...
-
ubuntu16.04安装语音识别whisper及whisper-ctranslate2工具(填坑篇)
环境:系统ubuntu16.04,显卡是NVIDIA Quadro RTX5000 目标:安装语音识别工具whipser/whipser-ctranslate2 因之前有过几次在linux和windows上有过部署whisper经验和...
-
4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
不仅如此,PowerInfer 与最先进的本地LLM推理框架 llama.cpp 相比,在单个 RTX 4090 (24G 上运行 Falcon (ReLU -40B-FP16,实现了 11 倍多的加速,还能保持模型的准确性。 具体来说,PowerIn...
-
together.ai让AI模型训练快9倍,获NVIDIA参投1.025亿美元A轮融资
目前获得融资最多的两家大模型创业公司是OpenAI和Anthropic,而这两家公司最大的投资者分别是微软和亚马逊,他们投资的很大一部分不是资金,而是等值的云计算资源。这其实也就把这两家顶尖的闭源大模型公司“绑上了”科技巨头的“战车”。 在闭源大模型之外,...
-
把检测器加进来,YOLOv8部署实战!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 0 把检测器加进来 本文是我在学习韩博《CUDA与TensorRT部署实战课程》第六章的课程部分输出的个人学习笔记,欢迎大家一起讨论学习! 1 导出onnx需要注意的地方 不要pip instal...
-
导出LLaMA ChatGlm2等LLM模型为onnx
通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。 这篇博客(大模型LLaMa及周边项目(二) - 知乎)进行了llama导出onnx的开创性...
-
自动驾驶大模型论文调研与简述
最近关于大模型(LLMs, VLM 与自动驾驶相关文献调研与汇总: 适合用于什么任务?答:目前基本上场景理解、轨迹预测、行为决策、运动规划、端到端控制都有在做。 大家都怎么做的? 对于规控任务,LLM型基本是调用+Prompt设计,集中在输入和输出设计...
-
英伟达支持的初创公司 Together AI 融资 1.025 亿美元
开源云 AI 初创公司 Together 在日益增长的人工智能投资潮中成为最新一家获得巨额融资的开发商,该公司日前宣布,它已在 A 轮投资中筹集了 1.025 亿美元,包括来自技术巨头 NVIDIA (英伟达)的投资。 Together 的一位发言人表示...
-
QPS提升近10倍!解读飞桨加持下的文心一言满月成绩单
近期,一直犹抱琵琶半遮面的国内各路AI相关厂商,扎堆发布大模型。一时间,百“模”大战,鱼龙混杂。 此前,作为全球第一个正式发布大模型的大厂,百度文心一言的一举一动,成为业界关注的焦点。 就在4月19日,时隔文心一言发布1个月又3天,一张“百度飞桨对文心...
-
视觉感知未来,高德数据采集模型部署实践!
1. 导读 作为DAU过亿的国民出行服务平台,高德地图每天为用户提供海量的检索、定位和导航服务,实现这些服务需要有精准的道路信息,比如电子眼位置、路况信息、交通标识位置信息等。读者是否会好奇,高德是如何感知到现实世界的道路信息,并提供这些数据给用户呢?...
-
微软CEO:下一代AI将重塑每个软件类别和每个企业
微软CEO萨提亚·纳德拉在年度公开信中表示,我们正进入一个新的人工智能时代,这项技术将从根本上改变每个组织、每个行业的生产力,并帮助人类应对一些最迫切的挑战。 纳德拉认为,下一代人工智能将重塑每个软件类别和每个企业,微软也不例外。他表示,有两个关键突破定义...
-
自动驾驶传感器融合面临的三大挑战
随着越来越多的自动驾驶汽车难题出现,挑战的难度越来越大。 汽车工业正在将传感器融合作为应对日益增加的自动驾驶汽车所需的复杂性和可靠性的最佳选择,为汽车内部如何管理和利用来自多个设备的数据的另一转变奠定了基础。 事实证明,向更大的自治迈进比起初所期望的要复...