transformers 第3页

【AIGC 概念理解】Zero-Shot，One-Shot，Few-Shot，In-Context Learning，Tuning-Free/Training-Free/Inference-Only

在人工智能领域，特别是自然语言处理（NLP）和机器学习中，几个重要的概念正在推动研究和应用的前沿发展。以下是few-shot learning, zero-shot learning, in-context learning, tuning-free, t...

大数据 2024-07-09 AIGC

549阅读

【Python】科研代码学习：十六 Model架构的代码细节，附架构图：Llama 为例（v4.28.0）

【Python】科研代码学习：十六 Model与网络架构的代码细节：Llama 为例（v4.28.0）前言导入依赖 `LlamaRMSNorm`：改进的层正则化 `LlamaRotaryEmbedding`：旋转式位置编码 `Llama...

大数据 2024-07-08 AIGC

720阅读

[arxiv论文解读]LlamaFactory：100+语言模型统一高效微调

该文档是一篇关于LLAMAFACTORY的学术论文，这是一个用于高效微调大型语言模型（LLMs）的统一框架。这篇论文详细介绍了LLAMAFACTORY的设计、实现和评估，以及它在语言建模和文本生成任务中的应用。下面是对文档内容的详细解释：摘要（Abst...

AIGC 2024-07-08 AIGC

789阅读

使用LLaMA-Factory微调Llama3大模型

一、基础模型下载本文的背景是微调一个基于Llama3的中文版模型Llama3-8B-Chinese-Chat，用于中文指定领域的问答下游任务 1、HuggingFace官网直接下载官网地址：https://huggingface.co/mo...

人工智能 2024-07-05 AIGC

705阅读

结合RNN与Transformer双重优点，深度解析大语言模型RWKV

本文分享自华为云社区《【云驻共创】昇思MindSpore技术公开课 RWKV 模型架构深度解析》，作者：Freedom123。一、前言 Transformer模型作为一种革命性的神经网络架构，于2017年由Vaswani等人提出，并在诸多任务中...

人工智能 2024-07-05 AIGC

545阅读

【LLM教程-llama】如何Fine Tuning大语言模型？

今天给大家带来了一篇超级详细的教程,手把手教你如何对大语言模型进行微调(Fine Tuning ！（代码和详细解释放在后文）目录大语言模型进行微调(Fine Tuning 需要哪些步骤？大语言模型进行微调(Fine Tuning 训练过程及代码...

AIGC 2024-07-04 AIGC

473阅读

Stable Diffusion 3 文本生成图像在线体验原理分析

前言本文分享使用Stable Diffusion 3实现文本生成图像，可以通过在线网页中免费使用的，也有API等方式访问。同时结合论文和开源代码进行分析，理解其原理。 Stable Diffusion 3是Stability AI开发的最新、最先...

大数据 2024-07-04 AIGC

436阅读

开源探索时刻！在LLaMA-Factory上实现GLM-4和Qwen2的工具格式化

众所周知，如今的大模型大多是使用通用数据训练得出，因此在不同场景和专业领域的效果还有待改进。于是就衍生出了现如今广泛使用的微调技术，由于笔者现在所在的项目同样是与大模型打交道，也就不可避免地盯上了LLaMA-Factory。那究竟什么是LLaMA-...

生成式AI 2024-07-03 AIGC

383阅读

本地离线模型搭建指南-LLaMA-Factory训练框架及工具

搭建一个本地中文大语言模型（LLM）涉及多个关键步骤，从选择模型底座，到运行机器和框架，再到具体的架构实现和训练方式。以下是一个详细的指南，帮助你从零开始构建和运行一个中文大语言模型。本地离线模型搭建指南将按照以下四个部分展开中文大语言模型底座选...

大数据 2024-07-02 AIGC

791阅读

基于Python和TensorFlow实现BERT模型应用

本文分享自华为云社区《使用Python实现深度学习模型：BERT模型教程》，作者： Echo_Wish。 BERT（Bidirectional Encoder Representations from Transformers）是Google提出的一种用...

AIGC 2024-07-02 AIGC

463阅读

【机器学习】FFmpeg+Whisper：二阶段法视频理解（video-to-text）大模型实战

目录一、引言二、FFmpeg工具介绍 2.1 什么是FFmpeg 2.2 FFmpeg核心原理 2.3 FFmpeg使用示例三、FFmpeg+Whisper二阶段法视频理解实战 3.1 FFmpeg安装 3.2 Whisper模型下载...

人工智能 2024-07-02 AIGC

473阅读

Stable Diffusion文生图模型训练入门实战（完整代码）

Stable Diffusion 1.5（SD1.5）是由Stability AI在2022年8月22日开源的文生图模型，是SD最经典也是社区最活跃的模型之一。以SD1.5作为预训练模型，在火影忍者数据集上微调一个火影风格的文生图模型（非Lora方式）...

人工智能 2024-07-01 AIGC

606阅读

探索开源宝藏：LLaMA 2 模型的全面优势与实践指南

探索开源宝藏：LLaMA 2 模型的全面优势与实践指南引言在大型语言模型（LLM）的领域中，Meta AI 开发的 LLaMA 2 以其开源的优势和强大的性能，迅速成为研究和开发社区的新宠。本文将深入探讨 LLaMA 2 的优势，并提供详细的实...

AIGC 2024-06-30 AIGC

403阅读

#02 安装指南：如何配置Stable Diffusion环境

文章目录前言前置条件第1步：安装Python和PIP 第2步：创建虚拟环境第3步：安装PyTorch和CUDA 第4步：安装Stable Diffusion相关库第5步：测试环境结论前言在之前的文章中，我们介...

大数据 2024-06-30 AIGC

555阅读

通过ORPO技术微调 llama3大模型(Fine-tune Llama 3 with ORPO)

通过ORPO对llama进行微调前言 ORPO是一种新颖的微调技术，它将传统的监督微调和偏好对齐阶段整合到一个过程中。这减少了训练所需的计算资源和时间。此外，经验结果表明，ORPO在各种模型大小和基准测试中都超过了其他对齐方法。在本文中，我们将...

生成式AI 2024-06-30 AIGC

408阅读

Google 深夜突袭，Gemma 2 狂卷 Llama 3

整理 | Echo Tang 出品丨AI 科技大本营（ID：rgznai100） Google 挤牙膏式的创新真是令人爱恨交织。早在一个多月前的 Google I/O 上，Google 便官宣将会在未来几周内推出开源模型 Gemma 的第二代 Ge...

大数据 2024-06-30 AIGC

397阅读

【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战

目录一、引言二、Whisper 模型原理 2.1 模型架构 2.2 语音处理 2.3 文本处理三、Whisper 模型实战 3.1 环境安装 3.2 模型下载 3.3 模型推理 3.4 完整代码 3.5 模型部署四、总结...

AIGC 2024-06-29 AIGC

777阅读

AIGC技术深度剖析：底层原理及其应用

AIGC技术深度剖析：底层原理及其应用引言人工智能生成对话技术（AIGC）是一种能够模拟人类语言表达和生成自然语言响应的技术。它是由AI对话大师调用的聊天生成语言大模型所提供的。本文将深入剖析AIGC技术的底层原理，并探讨它在各个领域的应用。...

大数据 2024-06-28 AIGC

921阅读

【CV】stable diffusion初步理解

来自gpt-4o Stable diffusion 和DALLE的关系 Stable Diffusion 和 DALL-E 都是生成图像的人工智能模型，但它们有不同的开发背景和技术实现。 Stable Diffusion: 开发者:...

生成式AI 2024-06-27 AIGC

487阅读

增强大型语言模型（LLM）可访问性：深入探究在单块AMD GPU上通过QLoRA微调Llama 2的过程

Enhancing LLM Accessibility: A Deep Dive into QLoRA Through Fine-tuning Llama 2 on a single AMD GPU — ROCm Blogs 基于之前的博客《使用Lo...

人工智能 2024-06-26 AIGC

651阅读

[Bug]使用Transformers 微调 Whisper出现版本不兼容的bug

错误的现象 ImportError Traceback (most recent call last <ipython-input-20-6958d7eed552> in ( from transformers...

大数据 2024-06-23 AIGC

651阅读

llama 3 震撼来袭 8B 150k 词元 8Ktoken长度 4T token 参与预训练与对齐训练使用GQA

Meta开发了并发布了Meta Llama 3系列大型语言模型(LLMs ，这是一组在8亿和70亿参数规模下预训练和指令调整的生成文本模型。Llama 3的指令调整模型针对对话用例进行了优化，并在常见的行业基准测试中超越了众多开源聊天模型。在开发这些模型时...

人工智能 2024-06-23 AIGC

453阅读

部署Video-LLama遇到的坑

环境：linux，conda，python 3.10下载：下载时首先在中国直接拉去huggingface的git链接很大概率上实行不同的因为被ban了，如果想下载只能找镜像网站。镜像网站比如modelscope就非常好用，魔搭社区网速非常快！我这边使用的是...

AIGC 2024-06-22 AIGC

476阅读

LLMs：Chinese-LLaMA-Alpaca的简介(扩充中文词表+增量预训练+指令精调)、安装、案例实战应用之详细攻略

LLMs：Chinese-LLaMA-Alpaca的简介(扩充中文词表+增量预训练+指令精调、安装、案例实战应用之详细攻略导读：2023年4月17日，哈工大讯飞联合实验室，本项目开源了中文LLaMA模型和指令精调的Alpaca大模型，以进一步...

人工智能 2024-06-21 AIGC

611阅读

在Windows下搭建Stable Diffusion环境中途出错咋弄？

在Windows下搭建Stable Diffusion环境需要以下几个步骤：安装Git和Anaconda 首先，确保你的计算机上已经安装了Git和Anaconda。如果没有安装，可以分别访问官方网站进行下载和安装： Git: https://git...

AIGC 2024-06-21 AIGC

343阅读

基于Llama 3的最强开源医疗AI模型OpenBioLLM-Llama3，刷新榜单

项目概述 OpenBioLLM-70B是一款先进的开源生物医学大型语言模型，由Saama AI实验室基于Llama 3技术精心开发并微调。此模型专为生物医学领域设计，利用尖端技术，在多种生物医学任务中实现了最先进的性能表现。背景： Saam...

生成式AI 2024-06-20 AIGC

720阅读

基于LLaMA-Factory微调Llama3

本文简要介绍下基于LLaMA-Factory的llama3 8B模型的微调过程环境配置 # 1. 安装py3.10虚拟环境 conda create -n py3.10-torch2.2 python=3.10 source activate c...

生成式AI 2024-06-20 AIGC

496阅读

stable diffusion本地部署教程

Stable diffusion本地部署教程前言 Stable Diffusion是一种基于深度学习的图像生成模型，能够生成高质量的图像。由于其计算需求较高，需要强大的计算资源来运行。然而，使用云服务或远程服务器来部署Stable Diffu...

人工智能 2024-06-20 AIGC

1579阅读

Llama 3 构建语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

Llama 3 构建语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成文章目录 Llama 3 构建语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成不同行...

人工智能 2024-06-19 AIGC

526阅读

开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（三）

一、前言语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提...

人工智能 2024-06-19 AIGC

368阅读

Llama Factory 笔记

本地环境：cuda 11.7 torch2.1.0 项目文件结构： 1. 项目文件结构：如果利用Llama Factory 进行微调主要会用到 LLama-Factory/src 中的文件 2. src 下的目录结构本地推理的...

生成式AI 2024-06-18 AIGC

711阅读

AIGC从入门到实战：落霞与孤鹜齐飞：AIGC 汹涌而来

作者：禅与计算机程序设计艺术 Generative Capacity (AIGC has taken the technology world by storm in recent years, bringing forth innovative so...

人工智能 2024-06-17 AIGC

385阅读

五一超级课堂---Llama3-Tutorial（Llama 3 超级课堂）---第三节llama 3图片理解能力微调（xtuner+llava版）

课程文档： https://github.com/SmartFlowAI/Llama3-Tutorial 课程视频： https://space.bilibili.com/3546636263360696/channel/collectiondetail?...

大数据 2024-06-16 AIGC

548阅读

Llama网络结构介绍

LLaMA现在已经是开源社区里炙手可热的模型了，但是原文中仅仅介绍了其和标准Transformer的差别，并没有一个全局的模型介绍。因此打算写篇文章，争取让读者不参考任何其他资料把LLaMA的模型搞懂。结构如图所示为LLaMA的示意图，由Atte...

AIGC 2024-06-16 AIGC

638阅读

使用LLaMA-Factory来实现微调ChatGLM-3B

前提：本文是使用阿里云的人工智能PAI平台的交互式建模（DSW）来进行的如下操作安装LLaMA-Factory # 克隆项目 git clone https://github.com/hiyouga/LLaMA-Factory.git # 安装项目...

人工智能 2024-06-15 AIGC

533阅读

Meta-Llama-3-8B-Instruct本地推理

Meta-Llama-3-8B-Instruct 本地推理基础环境信息（wsl2安装Ubuntu22.04 + miniconda）使用miniconda搭建环境 (base :~$ conda create --name pyto...

AIGC 2024-06-15 AIGC

365阅读

用 Unsloth 微调 LLaMA 3 8B

用 Unsloth 微调 LLaMA 3 8B 今年4月份，Meta 公司发布了功能强大的大型语言模型（LLM）Llama-3，为从事各种 NLP 任务的开发人员提供了功能强大可以在普通机器上运行的开源LLM。然而，传统的 LLM 微调过程既耗时又耗费资...

生成式AI 2024-06-14 AIGC

672阅读

运行stable-diffusion出现的问题(1)

Checkout your internet connection or see how to run the library in offline mode at ‘https://huggingface.co/docs/transformers/ins...

生成式AI 2024-06-13 AIGC

393阅读

transformers 阅读：Llama 模型

正文学习一下 transformers 库中，Llama 模型的代码，学习过程中写下这篇笔记，一来加深印象，二来可以多次回顾。笔者小白，里面错误之处请不吝指出。层归一化 LlamaRMSNorm transformers 中对于 Llam...

AIGC 2024-06-12 AIGC

620阅读

LLaMA详细解读

LLaMA 是目前为止，效果最好的开源 LLM 之一。精读 LLaMA 的论文及代码，可以很好的了解 LLM 的内部原理。本文对 LLaMA 论文进行了介绍，同时附上了关键部分的代码，并对代码做了注释。摘要 LLaMA是一个系列模型，模型参数量从7B...

人工智能 2024-06-11 AIGC

604阅读

AIGC从入门到实战：AI 辅助写作：基于 ChatGPT 的自动创作和文本扩展

1. Background Introduction In the rapidly evolving digital age, artificial intelligence (AI has become an indispensable tool i...

生成式AI 2024-06-09 AIGC

444阅读

Llama模型家族训练奖励模型Reward Model技术及代码实战（三）使用 TRL 训练奖励模型

LlaMA 3 系列博客基于 LlaMA 3 + LangGraph 在windows本地部署大模型（一）基于 LlaMA 3 + LangGraph 在windows本地部署大模型（二）基于 LlaMA 3 + LangGraph 在w...

生成式AI 2024-06-09 AIGC

669阅读

【推理框架】超详细！AIGC面试系列大模型推理系列(1)

本期问题聚焦于大模型的推理框架本期问题快览有哪些大模型推理框架了解vllm吗介绍下vllm的核心技术了解faster transformer吗介绍下faster transformer的核心技术了解Xinference吗了解l...

大数据 2024-06-08 AIGC

1018阅读

LLaMA3（Meta）微调SFT实战Meta-Llama-3-8B-Instruct

LlaMA3-SFT LlaMA3-SFT, Meta-Llama-3-8B/Meta-Llama-3-8B-Instruct微调(transformers /LORA(peft /推理项目地址 https://github.com/yong...

大数据 2024-06-07 AIGC

653阅读

微调LLama模型：具体步骤与代码实现

微调LLama模型是一个涉及多个步骤的过程，包括数据准备、模型加载、设置优化器和损失函数、训练循环以及模型评估。下面，我们将详细介绍这些步骤，并给出相应的代码实现。步骤一：数据准备首先，我们需要准备用于微调的数据集。这通常包括一个输入文本序列和对...

生成式AI 2024-06-05 AIGC

395阅读

多语言模型微调统一框架 LlAMAFACTORY: 统一高效微调100多种语言模型

文章目录摘要 1 引言 2 高效微调技术 2.1 高效优化 2.2 高效计算 3 LlAMAFACtORY框架 3.1 模型加载器 3.2 数据处理工作者 3.3 训练器 3.4 实用工具 3.5 LLAMABOARD：LLAMAFAC...

人工智能 2024-06-05 AIGC

461阅读

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

年前，Mamba被顶会ICLR拒稿的消息曾引起轩然大波。甚至有研究人员表示：如果这种工作都被拒了，那我们这些「小丑」要怎么办？这次，新一代的Mamba-2卷土重来、再战顶会，顺利拿下了ICML 2024！仍是前作的两位大佬（换了个顺序），仍是熟...

AIGC 2024-06-04 AIGC

534阅读

llama.cpp 转化 huggingface 模型失败解决路径

问题： ./main -m ./models/book_q4_K_M -n 128 报错： terminate called after throwing an instance of 'std::out_of_range' what( :...

AIGC 2024-06-03 AIGC

644阅读

快速学会一个算法，xLSTM

今天给大家分享一个超强的算法模型，xLSTM。 xLSTM（Extended Long Short-Term Memory）是对传统 LSTM（Long Short-Term Memory）模型的扩展和改进，旨在提升其在处理时间序列数据和序列预测任务中的...

AIGC 2024-06-03 AIGC

410阅读

Llama-Factory 简介二，脚本详解 LLaMA-Factory/src/train_bash.py LLaMA-Factory/src/llmtuner/train/pt/workfl

examples/ ├── lora_single_gpu/ │ ├── pretrain.sh: 基于 LoRA 进行增量预训练 │ ├── sft.sh: 基于 LoRA 进行指令监督微调 │ ├── reward.sh: 基于 LoRA...

生成式AI 2024-06-03 AIGC

829阅读