transformers 第5页

五种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

本文将介绍大语言模型中使用的不同令牌遮蔽技术，并比较它们的优点，以及使用Pytorch实现以了解它们的底层工作原理。令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用，并被用于许多变体(Ro...

AIGC 2024-04-09 人工智能

617阅读

[NLP]使用Alpaca-Lora基于llama模型进行微调教程

Stanford Alpaca 是在 LLaMA 整个模型上微调，即对预训练模型中的所有参数都进行微调（full fine-tuning）。但该方法对于硬件成本要求仍然偏高且训练低效。 [NLP]理解大型语言模型高效微调(PEFT 因此， Alpac...

生成式AI 2024-04-08 人工智能

769阅读

CS25官网体验入口斯坦福大学深度学习AI课程免费在线使用地址

CS25是斯坦福大学提供的一门课程，主要探讨深度学习模型Transformers，该模型在全球范围内产生了巨大影响。课程邀请了Transformers研究领域的前沿人物，讨论从GPT和Gemini等LLM架构到创造性应用（如DALL-E和Sora）在内的最...

AIGC 2024-04-08 人工智能

672阅读

无需服务器！浏览器上直接运行近 700 个 AI 模型！

本文阿宝哥将介绍 Github 上一个超强的开源项目 —— transformers.js[1]。有了它，你可以直接在浏览器中运行 Transformers，无需服务器！利用它提供的超能力，你可以在浏览器上直接运行不同的 AI 模型，实现很多非常有用的...

生成式AI 2024-04-08 人工智能

925阅读

攻陷短视频后，Sora将需要72万块H100 GPU

OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。近日，投资机构 factorial funds 发表了一篇博文，深入探讨了 Sora 背后的一些技术细节，并对这些视频模型可能产生影响进行了探讨。最后，文中还...

人工智能 2024-04-08 人工智能

618阅读

stable-diffusion-webui踩坑指南

过年刷资讯AI的信息铺天盖地，准备研究研究。最后选择从AI绘画的stable diffusion入手。本地安装了最新的Python（13.12.2）然后直接克隆GitHub - Stability-AI/stablediffusion: High-Reso...

生成式AI 2024-04-08 人工智能

708阅读

小白也能微调大模型：LLaMA-Factory使用心得

大模型火了之后，相信不少人都在尝试将预训练大模型应用到自己的场景上，希望得到一个垂类专家，而不是通用大模型。目前的思路，一是RAG(retrieval augmented generation ，在模型的输入prompt中加入尽可能多的“目标领域”的相...

大数据 2024-04-07 人工智能

2293阅读

【AI】在本地 Docker 环境中搭建使用 Hugging Face 托管的 Llama 模型

目录 Hugging Face 和 LLMs 简介利用 Docker 进行 ML 格式的类型请求 Llama 模型访问创建 Hugging Face 令牌设...

人工智能 2024-04-04 人工智能

1635阅读

【Python】科研代码学习：十五 configuration，tokenization 的代码细节：Llama 为例

【Python】科研代码学习：十五 tokenizer的代码细节：Llama_Tokenization 为例前言 `LlamaConfig`：网络参数配置 `LlamaTokenizer`：分词工具前言对于 HF 的 Tr...

生成式AI 2024-04-04 人工智能

889阅读

Meta LLaMA 2实操：从零到一搭建顶尖开源大语言模型【超详篇】

前言本文章由 [jfj] 编写，所有内容均为原创。涉及的软件环境是在nvidia-docker环境进行的，如对docker未了解如何使用的，可以移步上一篇文章nvidia-docker安装详解。在 nvidia-docker 容器中运行时，Dock...

大数据 2024-04-02 人工智能

1213阅读

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多...

人工智能 2024-04-01 人工智能

607阅读

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?

自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE 的引入，2022年标志着该领域的...

AIGC 2024-04-01 人工智能

698阅读

0门槛免费商用！孟子3-13B大模型正式开源，万亿token数据训练

澜舟科技官宣：孟子3-13B大模型正式开源！这一主打高性价比的轻量化大模型，面向学术研究完全开放，并支持免费商用。在MMLU、GSM8K、HUMAN-EVAL等各项基准测评估中，孟子3-13B都表现出了不错的性能。尤其在参数量20B以内的轻量化大模...

生成式AI 2024-04-01 人工智能

546阅读

如何修改大模型的位置编码 --以LLama为例

最近在看RoPE相关内容，一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型，已经训练好了，但是怎么修改已经训练好的模型位置编码。查了以下相关代码，记录一下。原理这里就不细讲了，贴几个相关博客。十分钟读懂旋转编码（RoPE）Tran...

AIGC 2024-03-31 人工智能

844阅读

如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？首先你需要有硬件的资源，对于硬件来说有2个路径可以选。高性能和低性能，这里的区别就是是功率，因为精...

AIGC 2024-03-29 人工智能

694阅读

OpenAI将推出基于GPTs使用量的分成机制开发者感动哭！

OpenAI，一家在全球范围内广受关注的人工智能公司，近日宣布了一个重大消息。该公司计划在2024年第一季度推出一项名为“GPTs创作者收益计划”的新项目。这个计划的核心是，OpenAI将根据GPTs（Generative Pre-training Tr...

大数据 2024-03-29 人工智能

624阅读

Transformer技术的过去、现在与未来

2017年春季，八位谷歌研究人员发表了里程碑式论文《Attention is All You Need》，临近论文发表七周年，这篇论文及其介绍的Transformers架构已经成为AI领域的传奇。Transformers改变了从神经网络技术到生成类似外星...

AIGC 2024-03-27 人工智能

991阅读

AIGC专题：Sora实现文生视频跨越式突破，AIGC持续正反馈

今天分享的是AIGC专题系列深度研究报告：《AIGC专题：Sora实现文生视频跨越式突破，AIGC持续正反馈》。（报告出品方：国联证券）报告共计：16页来源：人工智能学派 Sora 模型实现众多突破 2 月 16 日，OpenAI 发布了文...

人工智能 2024-03-27 人工智能

642阅读

SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍

本文是DataWhale开源项目Sora原理与技术实战的第二次打卡任务的第一节，主要是简单试用Stable diffusion技术在魔塔社区进行文生图实践。同一打卡任务的其他小节请参见个人主页。目录一.【AIGC简介——以文生图为例】 1.基于生...

AIGC 2024-03-27 人工智能

606阅读

TensorFlow深度学习框架模型推理Pipeline进行人像抠图推理

概述为了使ModelScope的用户能够快速、方便的使用平台提供的各类模型，提供了一套功能完备的Python library，其中包含了ModelScope官方模型的实现，以及使用这些模型进行推理，finetune等任务所需的数据预处理，后处理，效果...

大数据 2024-03-26 人工智能

629阅读

使用GaLore在本地GPU进行高效的LLM调优

训练大型语言模型(llm ，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(LoRA 等参数高效方法，可以在消费级gpu上对大量模型进行微调。 G...

大数据 2024-03-25 人工智能

617阅读

视觉AIGC元年：技术大爆炸！Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮，究竟有哪些模块值得借鉴！

随着科技的飞速发展，我们迎来了视觉AIGC高光时刻，一个充满无限可能与机遇的新时代。在这个时代里，三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展，引领着AIGC领域的新浪潮。文章首先做相应简要介...

人工智能 2024-03-23 人工智能

732阅读

LLM、RAG虽好，但XGBoost更香！

编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）数据&AI企业家、投资人Oliver Molander 近日在LinkedIn上的帖子中打趣道：“如果你在2022年[ChatGPT推出]之前问人工智能专家什么是LL...

人工智能 2024-03-22 人工智能

706阅读

使用 QLoRA 进行微调Llama 2 和 Mistral的初学者指南

本指南适用于任何想要为自己的项目定制强大的语言模型（如 Llama 2 和 Mistral）的人。使用 QLoRA，我们将逐步完成...

生成式AI 2024-03-21 人工智能

888阅读

【Datawhale组队学习：Sora原理与技术实战】AIGC技术基础知识

AIGC是什么 AIGC全称叫做AI generated content，AlGC (Al-Generated Content，人工智能生产内容，是利用AlI自动生产内容的生产方式。在传统的内容创作领域中，PGC（Professionally-g...

生成式AI 2024-03-18 人工智能

776阅读

Stable Diffusion 跑通总结

记录了自己跑通Stable Diffusion的过程和踩过的坑，目前只是初步跑了一下，没有很深入的使用代码，希望能有一些参考价值。在Windows系统运行，需要提前装好Conda 一、下载代码和模型 1、下载代码：代码下载：代码地址或者...

AIGC 2024-03-17 人工智能

1008阅读

Stable Diffusion 3 技术论文解读：开源能赢得文生图竞赛吗？

在大语言模型领域，闭源模型正在赢得比赛，无论是 OpenAI 还是刚刚发布新模型的 Anthropic，都是闭源模型的代表。但在文生图领域，开源模型却表现出了足够强的竞争力。 2 周前，开源模型的代表企业 Stability AI 发布了最新...

AIGC 2024-03-15 人工智能

640阅读

Stable Diffusion 3 震撼发布，采用Sora同源技术，生成图像、视频真假难辨！

ChatGPT狂飙160天，世界已经不是之前的样子。新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 ============== Stable Diffusion 3...

人工智能 2024-03-14 人工智能

687阅读

Stable Diffusion 3 架构细节大揭秘

在众多前沿成果都不再透露技术细节之际，Stable Diffusion 3 论文的发布显得相当珍贵。 Stable Diffusion 3 的论文终于来了！这个模型于两周前发布，采用了与 Sora 相同的 DiT（Diffusion Transf...

人工智能 2024-03-12 人工智能

945阅读

Stable-diffusion复现笔记

一、引言目前正在学习有关扩撒模型的相关知识，最近复现了Stable-diffuison，此文主要是想记录一下整体的复现过程以及我在复现过程中出现的一些奇怪的问题以及我的处理方法。这里我的复现主要是针对官网文档实现的，并没有用到webui版本，如果是想体...

大数据 2024-03-12 人工智能

1846阅读

一键Run带你体验扩散模型的魅力

在文生视频领域，Sora将带来短视频的智能化变革，打破当前内容平台等额原有数据壁垒，短视频创作的生态护城河，同时Sora融入短视频工作流，极大的增强用户的体验，降低创作难度和成本，极大拓展创作者的能力边界，激发短视频创作空间。在视频创作...

生成式AI 2024-03-11 人工智能

582阅读

我们一起聊聊大模型的模型融合方法

模型融合大家以前用的很多，特别是在判别模型里，属于永远都能稳定提升的那一类方法。但是生成语言模型，因为解码的过程存在，并不像判别模型那样直观。另外，由于大模型的参数量增大，在参数规模更大的场景，简单的集成学习可以考量的方法相比低参数的机器学习更受限制，...

人工智能 2024-03-11 人工智能

779阅读

LLaMA-2 下载&demo使用

LLaMA-2 下载&demo使用 1. LLaMA-2 下载&demo使用 1.1 meta官网 1.2 huggingface 1.3 其他源 1.4 huggingface下载模型和数据加速 1. LLaM...

生成式AI 2024-03-09 人工智能

838阅读

StarCoder 2：GitHub Copilot本地开源LLM替代方案

GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力，而且正在永久性地改变数字原住民开发软件的方式，我也是它的付费用户之一。低代码/无代码平台将使应...

大数据 2024-03-09 人工智能

608阅读

24｜Stable Diffusion：最热门的开源AI画图工具

上一讲，我们一起体验了 CLIP 这个多模态的模型。在这个模型里，我们已经能够把一段文本和对应的图片关联起来了。看到文本和图片的关联，想必你也能联想到过去半年非常火热的“文生图”（Text-To-Image）的应用浪潮了。相比于在大语言模型里 OpenAI...

生成式AI 2024-03-08 人工智能

659阅读

Python爬虫基础到实战：构建自己的数据收集工具

在当前信息化的时代背景下，数据采集对于各行各业的重要性与日俱增。因此，熟练掌握一门编程语言并能灵活使用爬虫技术获取所需的数据资料已成为诸多数据工作者和专业研发人士的标配能力之一。本篇文章会从基础入门知识，渐进深入直至涉及复杂的爬虫设计与部署方略，围绕Pyt...

人工智能 2024-03-08 大数据

600阅读

AI图像合成技术的新浪潮：Stable Diffusion 3与Sora构架的突破

在人工智能的黄金时代，图像合成技术正以前所未有的速度发展。从简单的图像编辑到复杂的场景生成，AI的能力已经超越了传统软件的限制，开启了创意和视觉表达的新纪元。近期，Stable Diffusion 3技术报告的流出引起了业界的广泛关注，其背后的Sora构...

人工智能 2024-03-08 人工智能

692阅读

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Stable Diffusion 3 的论文终于来了！这个模型于两周前发布，采用了与 Sora 相同的 DiT（Diffusion Transformer）架构，一经发布就引起了不小的轰动。与之前的版本相比，Stable Diffusion 3 生成...

AIGC 2024-03-06 人工智能

685阅读

谷歌掀桌子！开源Gemma：可商用，性能超过Llama 2！

2月22日，谷歌在官网宣布，开源大语言模型Gemma。 Gemma与谷歌最新发布的Gemini 使用了同一架构，有20亿、70亿两种参数，每种参数都有预训练和指令调优两个版本。根据谷歌公布的测试显示，在MMLU、BBH、GSM8K等主流测试平台中，其...

大数据 2024-03-06 人工智能

584阅读

使用直接偏好优化策略微调Mistral-7b模型

译者 | 朱先忠审校 | 重楼引言通常，经过预训练的大型语言模型（LLM）只能执行下一个标记预测，这使其无法回答问题。这就解释了为什么这些基本模型还需要根据成对的指令和答案作进一步微调，最终才能够充当真正有用的人工助理。然而，这个过程仍然可能存在...

AIGC 2024-03-05 人工智能

941阅读

RNN效率媲美Transformer，谷歌新架构两连发：同等规模强于Mamba

这一次，谷歌 DeepMind 在基础模型方面又有了新动作。我们知道，循环神经网络（RNN）在深度学习和自然语言处理研究的早期发挥了核心作用，并在许多应用中取得了实功，包括谷歌第一个端到端机器翻译系统。不过近年来，深度学习和 NLP 都以 Transf...

生成式AI 2024-03-05 人工智能

688阅读

Stable Diffusion web UI 安装教程

Stable Diffusion web UI 安装教程欢迎来到猫说AI，wx搜索，猫说AI接入了最新版Chatgpt供大家免费使用。注意：这是ubuntu20.04安装步骤！ conda创建python虚拟环境 conda create -n...

AIGC 2024-03-04 人工智能

804阅读

DeepMind携Mamba华人作者推Transformer革命之作！性能暴涨媲美Llama 2，推理能效大幅碾压

Transformer又又又被挑战了！这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构，——Hawk和Griffin。论文地址：https://arxiv.org/abs/2402.19427 这种将门控线性RNN与局部注...

大数据 2024-03-04 人工智能

611阅读

Stable Diffusion 3 强势来袭，从此将文字绘画出来不是难题！

介绍 Stability AI 刚发布 Stable Diffusion 3 模型进行公测。该模型采用 diffusion transformer 架构，显著提高了在多主题提示、图像质量和拼写能力方面的性能。特点 spelling abili...

AIGC 2024-03-02 人工智能

700阅读

基本概念：什么是ChatGPT和AIGC

1.背景介绍 1. 背景介绍自2012年的AlphaGo胜利以来，人工智能(AI 技术的进步速度逐年加快，尤其是自然语言处理(NLP 领域的突破性进展。ChatGPT和AIGC是近年来引起广泛关注的两个AI技术。本文将深入探讨这两个技术的核...

AIGC 2024-03-01 人工智能

602阅读

SORA技术报告快速解读——浅谈其AIGC积累的技术底蕴

SORA技术报告解读文章目录概要 SORA整体概要关键性的技术方案解析 1. 视觉类型的特征嵌入和处理-video encoder 1.1 压缩视频的特征网络模型是什么？ 1.2 如何处理不同分辨率的训练和推理问题？ 2 Scalin...

人工智能 2024-03-01 人工智能

948阅读

用GGUF和Llama .cpp量化Llama模型

用GGUF和Llama .cpp量化Llama模型什么是GGML 如何用GGML量化llm 使用GGML进行量化 NF4 vs. GGML vs. GPTQ 结论由于大型语言模型（LLMS）的庞大规模，量化已成为有效运行它们的必要...

大数据 2024-02-29 人工智能

1580阅读

Llama中文大模型-模型部署

选择学习路径快速上手-使用Anaconda 第 0 步：前提条件确保安装了 Python 3.10 以上版本。第 1 步：准备环境如需设置环境，安装所需要的软件包，运行下面的命令。 git clone https:/...

AIGC 2024-02-29 人工智能

698阅读

AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析

AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析学习前言源码下载地址网络构建一、什么是Diffusion Transformer (DiT 二、DiT的组成...

人工智能 2024-02-28 人工智能

995阅读

LLaMA v1/2模型结构总览

LLaMA v1/2模型结构总览孟繁续目录收起结构 Group Query Attention(V2 only RMSNorm SwiGLU RoPE llama2 出来了，并且开源可商用，这下开源社区又要变天了。快速...

生成式AI 2024-02-28 人工智能

1049阅读