模型推理 - AIGC资讯

稀疏激活模型：大模型推理效率的优化

标题：稀疏激活模型：大模型推理效率的优化探索随着人工智能技术的飞速发展，深度学习模型，尤其是大型语言模型，在自然语言处理、计算机视觉等领域展现出了前所未有的能力。然而，这些大型模型在带来高精度预测的同时，也伴随着巨大的计算资源和时间消耗，尤其是在推理阶段。...

人工智能 2025-06-29 人工智能

844阅读

ai模型的轻量化：如何在移动端部署

标题：AI模型的轻量化：探索在移动端的高效部署策略随着人工智能技术的飞速发展，AI应用已经渗透到我们日常生活的方方面面，从智能语音识别到个性化推荐系统，无一不彰显着AI的魅力。然而，尽管服务器端AI模型能够处理复杂任务并提供高精度预测，但在移动端设备上部署...

大数据 2025-06-26 人工智能

674阅读

【大模型与AIGC】VLM基础知识汇总

这里写目录标题 LLM输入时的理解 1. Tokenizer的实现：Word极大似然估计 LLM推理：关于Attention mask的理解 1. CausalModel 与 AttentionMask 2. attention mask乘法...

生成式AI 2024-10-04 人工智能

1415阅读

3天把Llama训成Mamba，性能不降，推理更快！

近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。\ 先来看一张其乐融融的图片（一眼AI）：右边的小羊驼代表Llama，而左边的蛇（...

生成式AI 2024-09-30 人工智能

1253阅读

AIGC：Flux.1 NF4 使用 diffusers 推理

背景介绍 Flux 参数量很大 (包括 ext encoder2, autoencoder, 以及 diffusion model ，使用Diffusers推理，显存占用 30GB。有大佬做了 NF4 版本，效果依旧能打。所以本文使用 diffu...

生成式AI 2024-09-28 人工智能

1585阅读

GPT-4o能玩《黑神话》！精英怪胜率超人类，无强化学习纯大模型方案

AI玩黑神话，第一个精英怪牯护院轻松拿捏啊。有方向感，视角也没有问题。躲闪劈棍很丝滑。甚至在打鸦香客和牯护院时，AI的胜率已经超过人类。而且是完全使用大模型玩，没有使用强化学习。阿里巴巴的研究人员们提出了一个新型VARP（视觉动作角色扮演...

AIGC 2024-09-23 人工智能

847阅读

OpenAI o1全方位SOTA登顶lmsys排行榜！数学能力碾压Claude和谷歌模型，o1-mini并列第一

【新智元导读】o1模型发布1周，lmsys的6k+投票就将o1-preview送上了排行榜榜首。同时，为了满足大家对模型「IOI金牌水平」的好奇心，OpenAI放出了o1测评时提交的所有代码。万众瞩目的最新模型OpenAI o1，终于迎来了lmsys竞技...

生成式AI 2024-09-20 人工智能

1029阅读

Stable Diffusion 项目常见问题解决方案

Stable Diffusion 项目常见问题解决方案 stablediffusion High-Resolution Image Synthesis with Latent Diffusion Models 项目地址: https://git...

人工智能 2024-09-18 人工智能

956阅读

Cog-Stable-Diffusion 开源项目指南

Cog-Stable-Diffusion 开源项目指南 cog-stable-diffusionDiffusers Stable Diffusion as a Cog model项目地址:https://gitcode.com/gh_mirrors/c...

生成式AI 2024-09-14 人工智能

919阅读

基于whisper流式语音识别

为了实现持续监听麦克风并在检测到声音时进行转录，我们可以将流的监听时间设置为无限长。通过使用一个音量门限来检测是否有声音，然后进行转录。安装依赖确保安装必要的库： pip install torch torchaudio openai-whis...

AIGC 2024-09-14 人工智能

1667阅读

中国首个网络大模型，pick了CPU

当电信网络用上了大模型，会是一种什么体验? 以前网络上若是出了问题，运维人员需得是先靠着经验反复排查，找到了“病根”再“对症下药”。而现在有了大模型，这事儿的“打开方式”就变得截然不同了。首先，网络上若是出现了问题，大模型已经学会自己去找“病根”了，然...

AIGC 2024-09-14 人工智能

692阅读

清华系公司强强联合，一张4090让安全大模型进入千亿时代｜长亭x趋境

AI大行其道的时代，网络安全正面临前所未有的威胁。化身黑客的AI学会了自动化攻击，还有相当高的成功率，伊利诺伊大学香槟分校研究团队的最新研究显示:GPT-4能够在阅读CVE漏洞描述后，学会利用漏洞攻击，成功率高达87%。既然攻击方都与时俱进，用上AI新...

人工智能 2024-09-13 人工智能

719阅读

推荐项目：Honest LLaMA——追求真相的大型语言模型干预技术

推荐项目：Honest LLaMA——追求真相的大型语言模型干预技术 honest_llamaInference-Time Intervention: Eliciting Truthful Answers from a Language Model项目...

大数据 2024-09-12 人工智能

1156阅读

分享一个AI开发者的强力助手：openMind Library

在人工智能的浪潮中，深度学习开发套件 openMind Library，以其强大的功能和易用性，逐步成为AI开发者们的强力助手。本文将通过魔乐社区近期关注挺高的大模型平台魔乐社区，深入了解openMind Library。 openMind Librar...

大数据 2024-09-12 人工智能

1045阅读

llama.cpp本地部署大模型

llama.cpp 是一个C++库，用于简化LLM推理的设置，它使得在本地机器上运行大模型（GGUF格式）成为可能。官网：https://github.com/ggerganov/llama.cpp 模型库： https://huggingface...

AIGC 2024-09-12 人工智能

2369阅读

对标英伟达B200！马斯克：特斯拉2025年末批量装备Dojo 2 AI训练芯片

快科技9月11日消息，据媒体报道，马斯克在出席All-In Summit 2024活动时表示，特斯拉的下代AI芯片Dojo 2将于2025年末批量装备。马斯克强调，特斯拉的AI生态系统构筑精妙，其中Dojo扮演着模型训练的核心角色，而部署于车辆中的专用芯...

生成式AI 2024-09-11 人工智能

786阅读

Gemini Pro, Claude 3/3.5, GPT4 turbo/4o, 文心一言, GLM4系列, 月之暗面Kimi, Llama3系列设计推理大比拼

随着大语言模型的发展，各模型的语言对话能力也都得到了大家的认可，随之而来推理分析能力成为大模型下一轮角逐的一个要点。以下也是一家奥林匹克评测机构对于大模型推理能力的评分。权威评测机构固然测评全面，但是其设计的问题并不一定适合我们日常产品设计，对价格...

大数据 2024-09-10 人工智能

1163阅读

抖音豆包大模型AI写作教程

简数采集器支持调用字节跳动抖音的豆包AI大模型API接口，用于对采集的数据进行研究分析，内容写作等。抖音豆包大模型AI写作使用教程：目录 1.启用豆包AI大模型API功能 2.设置豆包API处理规则 3.应用API规则处理数据 4.获取AI...

AIGC 2024-08-30 人工智能

7711阅读

大模型框架汇总：大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel

常见的大模型框架：大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel：大模型框架是指用于训练、推理和部署大型语言模型（LLMs）的软件工具和...

生成式AI 2024-08-28 人工智能

1598阅读

华为发布AI百校计划：培养AI人才每年获最高100万支持

快科技8月26日消息，华为公司最近正式启动了华为AI百校计划”，向国内高校提供基于昇腾云服务的AI计算资源。该计划致力于解决高校师生在AI领域的科研创新和人才培养过程中，常遇到的算力资源不足等问题。计划将重点资助那些在AI领域有深入研究和影响力的高校团...

人工智能 2024-08-26 人工智能

658阅读

JuiceFS 在多云架构中加速大模型推理

在大模型的开发与应用中，数据预处理、模型开发、训练和推理构成四个关键环节。本文将重点探讨推理环节。在之前的博客中，社区用户 BentoML 和贝壳的案例提到了使用 JuiceFS 社区版来提高模型加载的效率。本文将结合我们的实际经验，详细介绍企业版在此场景...

大数据 2024-08-23 人工智能

729阅读

【Qwen2微调实战】LLaMA-Factory框架对Qwen2-7B模型的微调实践

系列篇章? No. 文章 1 【Qwen部署实战】探索Qwen-7B-Chat：阿里云大型语言模型的对话实践 2 【Qwen2部署实战】Qwen2初体验：用Transformers打造智能聊天机器人 3 【Qwen2部署实战】探索Qw...

大数据 2024-08-16 人工智能

1305阅读

Chinese-LLaMA-Alpaca-3 项目使用教程

Chinese-LLaMA-Alpaca-3 项目使用教程 Chinese-LLaMA-Alpaca-3中文羊驼大模型三期项目 (Chinese Llama-3 LLMs developed from Meta Llama 3项目地址:https:/...

人工智能 2024-08-15 人工智能

790阅读

开源模型应用落地-Meta-Llama-3.1-8B-Instruct与vllm-单机多卡-RTX 4090双卡（十四）

一、前言在应对业务访问量级提升的过程中，我们通过从单机单卡部署升级到单机多卡部署的方式，成功实现了VLLM模型的性能提升。在此过程中,我们遇到了一些问题和挑战，现在我将深入剖析这些经验教训，希望能够帮助大家快速上手部署可投入生产运行的环境。...

人工智能 2024-08-13 人工智能

2451阅读

如何定量分析 Llama 3，大模型系统工程师视角的 Transformer 架构

读完全文后，你将获得回答以下问题的能力（参考答案，请见最后一章节）： Llama 3 技术博客说 70B 模型、最长序列 8K、15T Tokens，训练了 640w GPU 时，这发挥了 H100 理论算力（989TFlops）的百分之多少?...

大数据 2024-08-05 人工智能

779阅读

使用go-llama.cpp 运行 yi-01-6b大模型，使用本地CPU运行，速度挺快的

1，视频地址 2，关于llama.cpp 项目 https://github.com/ggerganov/llama.cpp LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型（简易 Pyth...

人工智能 2024-08-01 人工智能

932阅读

GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑千亿参数大模型？

马斯克19天建成由10万块H100串联的世界最大超算，已全力投入Grok3的训练中。与此同时，外媒爆料称，OpenAI和微软联手打造的下一个超算集群，将由10万块GB200组成。在这场AI争霸赛中，各大科技公司们卯足劲加大对GPU的投资，似乎在暗示着拥...

大数据 2024-08-01 人工智能

830阅读

LLama-Factory使用教程

本文是github项目llama-factory的使用教程注意，最新的llama-factory的github中训练模型中，涉及到本文中的操作全部使用了.yaml配置。新的.yaml的方式很简洁但不太直观，本质上是一样的。新的readme中的.yam...

人工智能 2024-08-01 人工智能

2324阅读

AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

一、项目简介 MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。 1.1 主要模型及特性（1）MiniCPM-Llama3-V 2.5：参数规模: 8B 性能: 超越...

人工智能 2024-08-01 人工智能

1145阅读

摩尔线程GPU牵手东华软件：AI大模型适配已完成

快科技7月30日消息，摩尔线程、东华软件云筑AI创新中心联合宣布，双方已完成AI大模型推理测试与适配。基于摩尔线程的全功能GPU国产算力，东华软件打造了AI Agent平台智多型（A.I.Cogniflex）”，基于私有化大模型，安全可信。该平台集成了...

大数据 2024-07-31 人工智能

1322阅读

Unsloth 微调 Llama 3

本文参考：https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp 改编自：https://blog.csdn.net/qq_38628046/article/det...

AIGC 2024-07-30 人工智能

1004阅读

开源语音转文本 Speech-to-Text 大模型实战之Whisper篇

前言随着深度学习技术的不断发展，语音转文本（Speech-to-Text，STT）技术取得了显著的进步。开源社区涌现了许多高效的STT大模型，为开发者提供了强大的工具。本文将以OpenAI推出的Whisper模型为例，详细介绍如何使用该模型进行语音转文...

人工智能 2024-07-27 人工智能

1515阅读

自回归模型胜过扩散模型：用于可扩展图像生成的 Llama

? 文献卡 Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation 作者: Peize Sun; Yi Jiang; Shoufa Chen; Shil...

人工智能 2024-07-27 人工智能

1021阅读

[机器学习]-如何在 MacBook 上安装 LLama.cpp + LLM Model 运行环境

如何在 MacBook 上安装 LLama.cpp + LLM Model 运行环境 1. 问题与需求近段时间想学习一下大语言模型的本地化部署与应用。首先遇到的就是部署硬件环境的问题。我自己的笔记本是一台 MacBook Pro M3，没有 Nv...

AIGC 2024-07-21 人工智能

1124阅读

专访诺奖得主：大模型是记忆还是理解？

物理学家理查德·费曼曾将自然世界比作众神的游戏，比如国际象棋——我们不知道游戏规则，但却可以观察棋盘，也许只是其中的一角，然后根据这些观察，试图找出游戏规则。费曼的比喻，道出了科学研究的核心，也生动描绘了许多经济学家的工作，他们同样致力于从纷繁复杂的经济...

AIGC 2024-07-21 人工智能

760阅读

阿里云全面升级GPU云服务：AI大模型推理性能可提升100%

快科技7月19日消息，阿里云推出全面升级的GPU云服务，通过全新优化GPU套件，多GPU推理服务性能可最大提升100%。针对调用GPU算力最常用的容器技术，阿里云推出ACK云原生AI套件，帮助开发者及企业更高效地开发和部署AI应用，加速大模型应用落地。...

大数据 2024-07-19 人工智能

737阅读

基于MindSpore实现BERT对话情绪识别

本文分享自华为云社区《【昇思25天学习打卡营打卡指南-第二十四天】基于 MindSpore 实现 BERT 对话情绪识别》，作者：JeffDing。模型简介 BERT全称是来自变换器的双向编码器表征量（Bidirectional Encoder...

AIGC 2024-07-16 人工智能

734阅读

国产大模型第一梯队玩家，为什么pick了CPU？

AI一天，人间一年。现在不论是大模型本身，亦或是AI应用的更新速度简直令人直呼跟不上—— Sora、Suno、Udio、Luma……重磅应用一个接一个问世。也正如来自InfoQ的调查数据显示的那般，虽然AIGC目前还处于起步阶段，但市场规模已初具雏形:...

生成式AI 2024-07-11 人工智能

804阅读

蚂蚁集团WAIC发布大模型密算平台，助力大模型破解数据供给挑战

大模型向下扎根深入行业，必须要破解高质量数据供给的挑战。7月5日，2024年世界人工智能大会进入第二天，作为数据要素领域的主要技术服务商，蚂蚁集团发布“隐语Cloud”大模型密算平台，通过软硬件结合的可信隐私计算技术，在大模型托管和大模型推理等环节实现数据...

大数据 2024-07-05 人工智能

635阅读

【机器学习】FFmpeg+Whisper：二阶段法视频理解（video-to-text）大模型实战

目录一、引言二、FFmpeg工具介绍 2.1 什么是FFmpeg 2.2 FFmpeg核心原理 2.3 FFmpeg使用示例三、FFmpeg+Whisper二阶段法视频理解实战 3.1 FFmpeg安装 3.2 Whisper模型下载...

人工智能 2024-07-02 人工智能

970阅读

【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战

目录一、引言二、Whisper 模型原理 2.1 模型架构 2.2 语音处理 2.3 文本处理三、Whisper 模型实战 3.1 环境安装 3.2 模型下载 3.3 模型推理 3.4 完整代码 3.5 模型部署四、总结...

AIGC 2024-06-29 人工智能

1289阅读

原创：旗舰游戏显卡(980Ti,1080Ti,TiTan V,2080Ti,3090,4090)，AI画图stable diffusion)和大模型(chatglm2-6b)推理性能横评

前言：自从去年10月份以ChatGPT和stable diffusion的发布引发了一波生成式AI浪潮，但很多人特别是某些领导整天在会议上说人工智能带来的各种风险和不足，其实自己几乎没用过ChatGPT和stable diffusion，...

AIGC 2024-06-28 人工智能

2048阅读

探索和构建 LLaMA 3 架构：深入探讨组件、编码和推理技术（一）

探索和构建 LLaMA 3 架构：深入探讨组件、编码和推理技术（一） Meta 通过推出新的开源 AI 模型 Llama 3 以及新版本的 Meta AI，正在加强其在人工智能 (AI 竞赛中的竞争力。该虚拟助手由 Llama 3 提供支持，现已可在所...

人工智能 2024-06-25 人工智能

919阅读

哈啰集团全面接入通义灵码，AI 生成代码占比 20%，研发提效 12%

6月21日，在阿里云 AI 智领者峰会上海站，哈啰集团算法总监贾立宣布，哈啰集团已全面接入阿里云通义灵码专属版，不仅提升了内部研发效率，实现 AI 代码采用率超过20%，还将灵码接入了哈啰自研C o pilot“海螺机器人”共同帮助用户实现智能代码补全、进...

人工智能 2024-06-25 人工智能

810阅读

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

一项新的“大模型Benchmark”在推特上爆火，LeCun也点赞转发了! 而且无论是GPT-4还是Claude3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长...

大数据 2024-06-24 人工智能

793阅读

SiliconCloud上新：GLM-4-9B，通用能力超越Llama 3

今天，智谱发布了第四代 GLM 系列开源模型：GLM-4-9B。 GLM-4-9B 系列模型包括：基础版本 GLM-4-9B（8K）、对话版本 GLM-4-9B-Chat（128K）、超长上下文版本 GLM-4-9B-Chat-1M（1M）和多...

AIGC 2024-06-23 人工智能

850阅读

利用llama.cpp量化部署Llama-3-Chinese-8B-Instruct大模型

相关大模型项目：https://github.com/ymcui/Chinese-LLaMA-Alpaca-3 量化部署是将机器学习模型压缩以减少内存占用和计算成本的过程。本文将详细介绍如何使用llama.cpp工具进行模型量化并在本地部署。环...

AIGC 2024-06-22 人工智能

1367阅读

【推理优化】超详细！AIGC面试系列大模型推理系列(2)

本期问题聚焦于大模型的推理优化技术本期问题快览有哪些常见的大模型推理优化技术介绍下通过流水线处理技术来加速大模型推理方案介绍下并行计算技术来加速大模型推理的方案有哪些通过硬件来加速大模型推理的方式？模型量化是如何加速大模型推理的？...

生成式AI 2024-06-20 人工智能

2556阅读

硬核解读KubeEdge基于大模型边云协同的机器人语义分割算法

本文分享自华为云社区《KubeEdge：基于大模型边云协同的机器人语义分割算法》，作者：云容器大未来。近年来快速发展的视觉大模型(例如 SAM 在促进高精度的智能感知方面具有很大的潜力。然而，边缘环境中的资源限制往往会限制这种视觉大模型在本地部署，从...

AIGC 2024-06-17 人工智能

886阅读

手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍

苹果一出手，在手机等移动设备上部署大模型不可避免地成为行业关注焦点。然而，目前在移动设备上运行的模型相对较小（苹果的是3B，谷歌的是2B），并且消耗大量内存，这在很大程度上限制了其应用场景。即使是苹果，目前也需要与OpenAI合作，通过将云端GPT-4...

AIGC 2024-06-12 人工智能

731阅读