transformer 第3页 - AIGC资讯

混合专家模型（MoE）入门

模型规模是提升LLM大语言模型性能的关键因素，但也会增加计算成本。Mixture of Experts (MoE 架构通过分布式专家层和动态门控机制，有效降低了计算资源，使模型能够在扩展参数规模的同时保持高效的运行。 Mixtral of Exper...

生成式AI 2024-09-06 人工智能

890阅读

OpenAI GPT-3 Davinci：引领AI写作新纪元

本文还有配套的精品资源，点击获取简介：OpenAI研发的GPT-3模型，尤其是其Davinci版本，代表了自然语言处理领域的重大突破，具有1750亿参数，提升了AI在理解和生成语言的能力。GPT-3的Davinci版本以顶级性能著称，在多种语...

大数据 2024-09-06 人工智能

824阅读

AIGC辅助办公

1.什么是AIGC？早期内容生成方式为专业(人士生成内容(Professional Generated Content，PGC 。如：音乐专业人士的创作、设计师的平面设计创作用户生成内容(User Generated Content，UGC 更...

人工智能 2024-09-06 人工智能

725阅读

Lag-Llama：时间序列预测的开源基础模型中文安装与使用指南

Lag-Llama：时间序列预测的开源基础模型中文安装与使用指南 lag-llamaLag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting项目地址:h...

AIGC 2024-09-05 人工智能

976阅读

RWKV 已部署到 5 亿台 Windows 电脑？真正开源的新一代 AI 架构

2024 年 9 月，RWKV 社区成员发现：Office 系统在自动更新后（版本 2407 及以后）已自带 RWKV 运行库。在 Windows 系统的 C:\Program Files\Microsoft Office\root\vfs\Pro...

大数据 2024-09-05 人工智能

866阅读

AIGC入门（二）从零开始搭建Diffusion！（下）

上篇。https://blog.csdn.net/alxws/article/details/140058117?spm=1001.2014.3001.5502四、前向加噪过程（ForwardProcess.py）当我们的去噪器设计完成后，接下来，就...

人工智能 2024-09-05 人工智能

1058阅读

使用PyTorch从零构建Llama 3

我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后，有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了，本文将详细指导如何从零开始构建完整的Llama 3模型架构，并在自定义数据集上执行训练和推理。 [图1]：Llama...

人工智能 2024-09-05 人工智能

763阅读

大模型之二十七-语音识别Whisper实例浅析

Whisper简介 Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其...

AIGC 2024-09-05 人工智能

2335阅读

猫头虎 Gemma和Gemini模型的区别是什么？

猫头虎 ? Gemma和Gemini模型的区别是什么？摘要? 在这篇文章中，我们将深入探讨Gemma和Gemini这两个由Google开发的AI模型。我们会对比它们的参数规模、计算资源需求和集成难度，帮助大家了解这两者之间的主要区别。无论你是AI...

人工智能 2024-09-04 人工智能

1281阅读

Distil-Whisper 开源项目教程

Distil-Whisper 开源项目教程 distil-whisperDistilled variant of Whisper for speech recognition. 6x faster, 50% smaller, within 1% wor...

AIGC 2024-09-04 人工智能

926阅读

Llama中的曼巴：通过推测解码加速推理

大型语言模型（LLMs）已经彻底改变了自然语言处理领域，但在处理非常长的序列时面临重大挑战。主要问题来自于Transformer架构的计算复杂度随序列长度呈二次方增长以及其巨大的键值（KV）缓存需求。这些限制严重影响了模型的效率，特别是在推理过程中，使生成...

大数据 2024-09-04 人工智能

1061阅读

LongLLaMA：扩展上下文处理能力的大型语言模型

LongLLaMA：扩展上下文处理能力的大型语言模型 long_llamaLongLLaMA is a large language model capable of handling long contexts. It is based on Ope...

人工智能 2024-09-04 人工智能

868阅读

DIFFUSION 系列笔记| Latent Diffusion Model、Stable Diffusion基础概念、数学原理、代码分析、案例展示

目录 Latent Diffusion Model LDM 主要思想 LDM使用示例 LDM Pipeline LDM 中的 UNET 准备时间步 time steps 预处理阶段 pre-process 下采样过程 down sampl...

AIGC 2024-09-04 人工智能

1244阅读

重磅！Stable Diffusion创始团队推出FLUX.1：一夜颠覆MJ v6，DALL·E 3，SD3！

前言 Stable Diffusion 大家已经很熟悉了，是由 CompVis 团队开发的，这是一个隶属于德国慕尼黑大学的计算机视觉研究小组。该团队由多个研究人员和开发者组成，包括 Patrick Esser、Robin Rombach 和 Bjö...

人工智能 2024-09-04 人工智能

1006阅读

《Llama 3大模型》技术报告中英文版，95页pdf

现代人工智能（AI）系统由基础模型驱动。本文介绍了一套新的基础模型，称为Llama 3。它是一群本地支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个具有4050亿参数和高达128K令牌上下文窗口的密集Transformer。本文对Llama...

AIGC 2024-09-04 人工智能

781阅读

【扩散模型（六）】Stable Diffusion 3 diffusers 源码详解1-推理代码-文本处理部分

系列文章目录【扩散模型（一）】中介绍了 Stable Diffusion 可以被理解为重建分支（reconstruction branch）和条件分支（condition branch）【扩散模型（二）】IP-Adapter 从条件分支的视角，快...

生成式AI 2024-09-04 人工智能

1561阅读

基于大模型的原神对话系统尝试

一.简介该项目为一次大模型+游戏的尝试，成功实现了一个与原神内角色的对话系统。演示视频：https://www.bilibili.com/video/BV1b48CeuELL github地址：https://github.com/goodlu...

生成式AI 2024-09-04 人工智能

1473阅读

普通人如何零基础进入AIGC大模型人形机器人赛道，自学攻略，应用转化项目案例

要进入人形机器人赛道，普通人需要了解和掌握一系列的技能和知识，包括机器人设计、编程、电子工程、机械工程以及团队合作和项目管理。以下是一个详细的指南，帮助你从零基础开始，逐步进入这个充满挑战和机遇的领域。基础教育和技能培养进入人形机器人领域，基础...

人工智能 2024-09-04 人工智能

1357阅读

Stable-Diffusion1.5

SD1.5权重：https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main SDXL权重：https://huggingface.co/stabilityai/stable-diffus...

人工智能 2024-09-02 人工智能

1082阅读

大模型应用新战场：揭秘终端侧AI竞争关键

2024年过去2/3，大模型领域的一个共识开始愈加清晰: AI技术的真正价值在于其普惠性。没有应用，基础模型将无法发挥其价值。于是乎，回顾这大半年，从互联网大厂到手机厂商，各路人马都在探索AI时代Killer APP的道路上狂奔。这股风潮，也开始在顶级学...

人工智能 2024-09-02 人工智能

774阅读

Llama-X 开源项目指南

Llama-X 开源项目指南 Llama-XOpen Academic Research on Improving LLaMA to SOTA LLM项目地址:https://gitcode.com/gh_mirrors/ll/Llama-X 项目...

AIGC 2024-09-01 人工智能

848阅读

Stable Diffusion模型训练：从数据准备到模型优化

Stable Diffusion模型训练：从数据准备到模型优化开篇引入：探索创意无限的Stable Diffusion 数据集构建秘籍：打造专属训练素材如何收集高质量图像数据？数据预处理小技巧：清洗与标注模型配置与训练实战：让创意流...

AIGC 2024-09-01 人工智能

1149阅读

Stable diffusion: AttributeError: module ‘jax.random‘ has no attribute ‘KeyArray‘

错误提示安装from diffusers import StableDiffusionPipeline 提示错误 AttributeError: module ‘jax.random’ has no attribute ‘KeyArray’...

人工智能 2024-09-01 人工智能

1214阅读

一文看懂llama2(原理&模型&训练）

一文看懂Llama2（原理&模型&训练）一、引言 Llama2是Meta（原Facebook AI）最新开源的大型语言模型，它基于Transformer架构进行了多项优化和改进，旨在提供更高效、更准确的自然语言处理能力。Llama2...

生成式AI 2024-09-01 人工智能

832阅读

6小时完成Llama 3.1-8B适配并开源！MindSpore Transformers大模型套件使能开发者创新

北京时间7月24号, Meta 正式发布 Llama 3.1开源大语言模型, 包含8B、70B 及 405B 参数版本。其中的Llama 3.1 405B模型，在多项基准测试中可以媲美GPT4、Claude3.5等目前最强的闭源大模型。此外，8B 与 70...

生成式AI 2024-08-31 人工智能

1194阅读

Chinese-Llama-2-7b 开源项目教程

Chinese-Llama-2-7b 开源项目教程 Chinese-Llama-2-7b开源社区第一个能下载、能运行的中文 LLaMA2 模型！项目地址:https://gitcode.com/gh_mirrors/ch/Chinese-Llama-2...

AIGC 2024-08-31 人工智能

1106阅读

【大模型理论篇】关于LLaMA 3.1 405B以及小模型的崛起

前不久，Meta开源了LLaMA 3.1 405B【1】，模型扩展了上下文长度至 128K，支持八种语言，效果非常惊艳，是首个在通用知识、可操控性、数学、工具使用和多语言翻译方面能够与最先进闭源 AI 模型媲美的公开可用模型，已经赶上截至目...

生成式AI 2024-08-31 人工智能

972阅读

让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法

让AI像人类一样借助多模态线索定位感兴趣的物体，有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS（Refer and Segment Objects in Audio-Visual Scenes，视听场景下...

大数据 2024-08-31 人工智能

812阅读

AIGC大模型产品经理高频面试大揭秘‼️

近期有十几个学生在面试大模型产品经理（薪资还可以，详情见下图），根据他们面试（包括1-4面）中出现高频大于3次的问题汇总如下，一共32道题目（有答案）。 29.讲讲T5和Bart的区别，讲讲Bart的DAE任务 T5（Text-to-Text Tr...

人工智能 2024-08-31 人工智能

928阅读

AIGC-视频生成-AnimateDiff-基于T2I模型的动态生成论文详细解读

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 代码:https://github.com/guoyww/a...

大数据 2024-08-30 人工智能

1055阅读

论文分析｜高效长文本生成的技术与应用

Preface 前言目前大模型公司很多在追求长文a本，对算力需求极大，如何能够现实地处理该问题很重要。特别是随着Transformer模型尺寸和复杂性的增长，它们在训练期间的内存需求呈指数级增加。语言模型训练的瓶颈在于显存占用非常大，这需要创...

生成式AI 2024-08-30 人工智能

899阅读

探索Llama 3.1 : 405B参数模型：部署、硬件配置、测试与训练的心得

引言随着人工智能技术的快速发展，大规模语言模型（Large Language Models, LLMs）在自然语言处理（NLP）领域取得了显著的突破。MetaAI最新发布的Llama 3.1 : 405B参数模型，凭借其庞大的参数规模和先进的架构，展...

大数据 2024-08-30 人工智能

2118阅读

【AIGC】训练数据入库（Milvus）

之前的文章有写如何获取数据、如何补充数据，也有说如何对数据进行清洗、如何使用结构化数据进行训练。但好像没有说如何将训练数据“入库”。这里说的入库不是指 MySQL 数据库，而是指向量检索库 Milvus。众所周知，人工智能多用向量数据进行训练。数据先做...

生成式AI 2024-08-30 人工智能

893阅读

异常检测算法在可观测性平台的落地和实践｜得物技术

一、背景在稳定性保证中，重要的一个环节就是故障管理体系建设，故障管理体系的四大核心功能------故障发现、故障触达、故障定位和故障恢复，其中故障发现作为故障管理的第一步至关重要，包含了指标预测、异常检测和故障预测等方面，主要目标是能及时、准确地发现故...

人工智能 2024-08-29 人工智能

830阅读

英伟达Blackwell称霸MLPerf！推理性能暴涨30倍，新一代「AI怪兽」诞生

【新智元导读】MLPerf Inference发布了最新测试结果，英伟达最新的Blackwell架构芯片上场与谷歌、AMD同场竞技，展现出明显的性能提升，甚至刷新了部分任务上的测试纪录。大语言模型（LLM）推理是一个全栈挑战。为了实现高吞吐量、低延迟的...

生成式AI 2024-08-29 人工智能

772阅读

AIGC大模型实践总结（非常详细）零基础入门到精通，收藏这一篇就够了

大模型浪潮席卷全球，在各行各业中的重要性愈发凸显，呈现出一股不可逆转的发展趋势。这一年本人所在业产技也在这一过程中持续探索和尝试AIGC。本文一方面是对AIGC实践的总结回顾，同时也是本人学习实践AIGC过程中一些笔记、心得分享。因个人能力限制，文章中可能...

人工智能 2024-08-29 人工智能

988阅读

关掉MidJourney！ AI绘画Stable Diffusion开源模型新王 FLUX.1整合包来了！

各位小伙伴们，今天我要给大家带来一个超级重磅的消息！Stable Diffusion的创始团队又双叒叕搞事情了，推出了一个全新的开源AI图像生成模型——FLUX.1！这不仅是一个技术上的突破，更是为创意工作者们带来了无限的可能性。话不多说，赶紧来看看吧！...

大数据 2024-08-27 人工智能

981阅读

一文看懂llama2 (原理&模型&训练)

LLaMA2是一种基于Transformer架构的先进语言模型，广泛应用于自然语言处理（NLP）任务，如文本生成、机器翻译和问答系统等。本文将从其核心原理、模型结构以及训练方法三个方面进行详细探讨。一、核心原理 LLaMA2的核心原理是基于自注意力机...

人工智能 2024-08-27 人工智能

930阅读

Code Llama使用手册

Code Llama 是 Llama 2 的一系列最先进的开放访问版本，专门用于代码任务，我们很高兴发布与 Hugging Face 生态系统的集成！ Code Llama 已使用与 Llama 2 相同的宽松社区许可证发布，并且可用于商业用途。今天，...

人工智能 2024-08-27 人工智能

1157阅读

ChatGLM-6B入门

ChatGLM-6B ChatGLM-6B 一、介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡...

AIGC 2024-08-27 人工智能

737阅读

Datawhale X 魔搭 AI夏令营第四期 | AIGC文生图——进阶上分实战优化 Task3笔记

Hi，大家好，我是半亩花海。在上一个任务中，我们逐行精读baseline，掌握了利用AI工具提升学习效率，并制作了话剧连环画，初步了解Secpter WebUI。今天，我们将深入探讨微调的基本原理及其参数，旨在优化效果。同时，介绍文生图工作流平台Comfy...

生成式AI 2024-08-27 人工智能

714阅读

Datawhale X 魔搭 AI夏令营-AIGC方向-LoRA学习笔记

LoRA（Low-Rank Adaptation）是一种用于优化大规模预训练模型的微调技术，特别适用于在资源有限的情况下，对模型进行高效且低成本的微调。LoRA的核心思想是通过低秩分解方法，仅微调模型的少数参数，从而显著减少计算成本和内存占用。 1. 背...

人工智能 2024-08-26 人工智能

892阅读

SD创始团队黑马的Flux真的那强吗？SD Flux与华为ultrapixel大PK！群雄逐鹿！“百模”并起，王者之战~！

前言小南还是没忍住，看大家都在试玩Flux，真的有那么震撼么？小南手痒痒也体验下吧。今天主要简单介绍下Flux以及ComfyUI的安装，重点是和我们“遥遥领先”的华为开源的ultrapixel进行下对比。没有对比就没有伤害！大家应该对Flux也有...

人工智能 2024-08-26 人工智能

1855阅读

微调LLama 3.1——七月论文审稿GPT第5.5版：拿早期paper-review数据集微调LLama 3.1

前言为更好的理解本文，建议在阅读本文之前，先阅读以下两篇文章七月论文审稿GPT第2版：用一万多条paper-review数据微调LLaMA2 7B最终反超GPT4 提升大模型数据质量的三大要素：找到早期paper且基于GPT摘要出来7方面revi...

大数据 2024-08-25 人工智能

904阅读

大模型算法必学，万字长文Llama-1到Llama-3详细拆解

导读 Llama系列的大语言模型在多个自然语言处理任务中表现出色，包括文本分类、情感分析和生成式问答，本质是使用 Transformer 架构并结合预训练和微调技术。本文详细讲解Llama-1到Llama-3，值得读者点赞收藏！引言在AI领域...

AIGC 2024-08-25 人工智能

1287阅读

Llama 3.1深度解析：405B、70B及8B模型的多语言与长上下文处理能力

Llama 3.1 发布了！今天我们迎来了 Llama 家族的新成员 Llama 3.1 进入 Hugging Face 平台。我们很高兴与 Meta 合作，确保在 Hugging Face 生态系统中实现最佳集成。Hub 上现有八个开源权重模型 (3 个...

人工智能 2024-08-25 人工智能

1374阅读

语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

【新智元导读】就在刚刚，Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。也就是说，真正的多模态AI模型，可能很快就要来了! Transformer...

生成式AI 2024-08-25 人工智能

827阅读

快速体验LoRA微调Llama3-8B模型以及海光DCU推理加速（曙光超算互联网平台国产异构加速卡）

序言本文以 LLaMA-Factory 为例，在超算互联网平台SCNet上使用异构加速卡AI 显存64GB PCIE，对 Llama3-8B-Instruct 模型进行 LoRA 微调、合并和推理。一、参考资料 github仓库代码：LLaM...

AIGC 2024-08-24 人工智能

4986阅读

Llama改进之——分组查询注意力

引言今天介绍LLAMA2模型引入的关于注意力的改进——分组查询注意力(Grouped-query attention,GQA 1。 Transformer中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头，同...

AIGC 2024-08-24 人工智能

839阅读

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

Llama 3.1 发布了！Llama 3.1 有三种规格: 8B 适合在消费者级 GPU 上进行高效部署和开发，70B 适合大规模 AI 原生应用，而 405B 则适用于合成数据、大语言模型 (LLM 作为评判者或蒸馏。这三个规格都提供基础版和指令调优...

生成式AI 2024-08-23 人工智能

2217阅读