transformer 第11页

AIGC系列之：DDPM原理解读（简单易懂版）

目录 DDPM基本原理 DDPM中的Unet模块 Unet模块介绍 Unet流程示意图 DownBlock和UpBlock MiddleBlock 文生图模型的一般公式总结本文部分内容参考文章：https://ju...

AIGC 2024-05-28 人工智能

856阅读

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

2003年夏天的一个周日，AI教父Hinton在多伦多大学的办公室里敲代码，突然响起略显莽撞的敲门声。门外站着一位年轻的学生，说自己整个夏天都在打工炸薯条，但更希望能加入Hinton的实验室工作。 Hinton问，你咋不预约呢？预约了我们才能好好谈谈。...

大数据 2024-05-27 人工智能

530阅读

【带文字的图像生成-附开源代码】AIGC 如何在图像中准确生成文字？字体篇（上）

文字图像生成是什么？ “文字图像生成（Text-image generation）”即生成带有指定文字的图像。如下图所示，市面常见的通用文生图很难准确地生成带有指定文字的图像。文字图像生成也被称为文本渲染（Text rendering）。为什么重要？...

AIGC 2024-05-27 人工智能

1058阅读

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

前段时间，OpenAI、谷歌、微软相继开大会，AI圈子的竞争如火如荼。这么热闹的时候，怎么能少得了马斯克。前段时间忙着特斯拉和星链的他，最近好像开始腾出手，而且不鸣则已、一鸣惊人，直接放出一个大消息——自己要造世界上最大的超算中心。今年3月，他旗下...

大数据 2024-05-27 人工智能

562阅读

只需单卡RTX 3090，低比特量化训练就能实现LLaMA-3 8B全参微调

自 2010 年起，AI 技术历经多个重大发展阶段，深度学习的崛起和 AlphaGo 的标志性胜利显著推动了技术前进。尤其是 2022 年底推出的 ChatGPT，彰显了大语言模型（LLM）的能力达到了前所未有的水平。自此，生成式 AI 大模型迅速进入高...

AIGC 2024-05-27 人工智能

492阅读

一文深度剖析 ColBERT

近年来，向量搜索领域经历了爆炸性增长，尤其是在大型语言模型（LLMs）问世后。学术界开始重点关注如何通过扩展训练数据、采用先进的训练方法和新的架构等方法来增强 embedding 向量模型。在之前的文章中，我们已经深入探讨了各种类型的 embeddin...

大数据 2024-05-27 人工智能

596阅读

手撕Llama3第1层: 从零开始实现llama3

一、Llama3的架构在本系列文章中，我们从头开始实现llama3。 Llama3的整体架构：图片 Llama3的模型参数：让我们来看看这些参数在LlaMa 3模型中的实际数值。图片 [1] 上下文窗口（context-window）在实例化Lla...

人工智能 2024-05-27 人工智能

1366阅读

Meta LlaMA 3模型深度解析

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 拉玛的故事 “在安第斯山脉崎岖的山区，生活着三种非常美丽的生物——里约、洛基和塞拉。它们有着光泽的皮毛和闪闪发光的眼睛，是力量和韧性的...

大数据 2024-05-27 人工智能

602阅读

Llama大型语言模型原理详解

Llama大型语言模型是一种基于深度学习的自然语言处理模型，它在文本生成、问答、摘要等多种NLP任务中展现出强大的性能。本文将详细解析Llama模型的原理，包括其结构、训练过程以及工作机制，帮助读者深入理解这一先进的模型。一、模型结构 Llama模型...

人工智能 2024-05-27 人工智能

619阅读

本地环境运行Llama 3大型模型：可行性与实践指南

简介： Llama 是由 Meta（前身为 Facebook）的人工智能研究团队开发并开源的大型语言模型（LLM），它对商业用途开放，对整个人工智能领域产生了深远的影响。继之前发布的、支持4096个上下文的Llama 2模型之后，Meta 进一步推出了性...

AIGC 2024-05-27 人工智能

780阅读

Shortened LLaMA：针对大语言模型的简单深度剪枝法

? CSDN 叶庭云：https://yetingyun.blog.csdn.net/ 论文标题 & 发表会议：Shortened LLaMA: A Simple Depth Pruning for Large Language Model...

生成式AI 2024-05-27 人工智能

703阅读

Llama模型下载

最近llama模型下载的方式又又变了，所以今天简单更新一篇文章，关于下载的，首先上官网，不管在哪里下载你都要去官网登记一下信息：https://llama.meta.com/llama2 然后会出现下面的信息登记网页：我这里因为待业所以or...

大数据 2024-05-26 人工智能

779阅读

在Mac电脑上本地部署Llama大型语言模型

Llama大型语言模型以其出色的性能和广泛的应用场景，吸引了众多NLP研究者和开发者的关注。在Mac电脑上本地部署Llama模型，可以让我们更加便捷地利用这一强大工具进行各种NLP任务。本文将详细介绍在Mac电脑上本地部署Llama模型的步骤和注意事项。...

大数据 2024-05-26 人工智能

734阅读

AI独角兽集体求卖身，新一轮洗牌期开始了

大模型公司洗牌期开始了。突然之间，几家明星初创纷纷传出消息，寻求收购。都是大家熟悉的名字、过往战绩也都不错: Adept，估值超10亿美元，由Transformer作者创立; Humane，估值7.5-10亿美元，打造出爆火AI新硬件AI Pin; S...

生成式AI 2024-05-26 人工智能

503阅读

autodl 上使用 LLaMA-Factory 微调中文版 llama3

autodl 上使用 LLaMA-Factory 微调中文版 llama3 环境准备创建虚拟环境下载微调工具 LLaMA-Factory 下载 llama3-8B 开始微调测试微调结果模型合并后导出 vllm 加速推理...

人工智能 2024-05-26 人工智能

1090阅读

知识分享系列五：大模型与AIGC

大模型（LLM，Large Language Mode）是指通过在海量数据上依托强大算力资源进行训练后能完成大量不同下游任务的深度学习模型。大模型主要用于进行自然语言相关任务，给模型一些文本输入，它能返回相应的输出，完成的具体任务包括生成、分类、总结、改写...

人工智能 2024-05-26 人工智能

679阅读

微调llama 3 — PEFT微调和全量微调

1. llama 3 微调基础 1.1 llama 3 简介官方blog llama 3 目前有两个版本：8B版和70B版。8B版本拥有8.03B参数，其尺寸较小，可以在消费者硬件上本地运行。 meta-llama/Meta-Llama-3-...

大数据 2024-05-25 人工智能

1097阅读

Llama 3开源！手把手带你推理，部署，微调

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。汇总合集《大模型面试...

大数据 2024-05-25 人工智能

669阅读

【AIGC】本地部署通义千问 1.5 (PyTorch)

今天想分享一下 Qwen 1.5 官方用例的二次封装（ huggingface 说明页也有提供源码），其实没有太多的技术含量。主要是想记录一下如何从零开始在不使用第三方工具的前提下，以纯代码的方式本地部署一套大模型，相信这对于技术人员来说还是非常有用的。...

大数据 2024-05-25 人工智能

624阅读

「AIGC」AIGC技术入门

人工智能（AI）领域的多个重要概念和实践。一、思考问题什么是AI? 什么是AIGC? 什么是AGI? 什么是模型? 什么是大模型(LLM ,什么是小模型? 什么是提示词工程?如何写提示词什么是神经网络? 召回率是什么含义?...

人工智能 2024-05-25 人工智能

496阅读

LLaMA-Factory参数的解答（命令，单卡，预训练）

前面这个写过，但觉得写的不是很好，这次是参考命令运行脚本，讲解各个参数含义。后续尽可能会更新，可以关注一下专栏！！ *这是个人写的参数解读，我并非该领域的人如果那个大佬看到有参数解读不对或者有补充的请请反馈！谢谢（后续该文章可能会持续更新） * LLaMA...

人工智能 2024-05-25 人工智能

642阅读

Stable Diffusion介绍

Stable Diffusion是一种前沿的开源深度学习模型框架，专门设计用于从文本描述生成高质量的图像。这种称为文本到图像生成的技术，利用了大规模变换器（transformers）和生成对抗网络（GANs）的力量，以创建与给定文本提示相一致的图像。...

大数据 2024-05-25 人工智能

750阅读

LLaMA-Factory微调（sft）ChatGLM3-6B保姆教程

LLaMA-Factory微调（sft）ChatGLM3-6B保姆教程准备 1、下载下载LLaMA-Factory 下载ChatGLM3-6B 下载ChatGLM3 windows下载CUDA ToolKit 12.1 （本人是在w...

生成式AI 2024-05-25 人工智能

705阅读

AIGC实战——VQ-GAN(Vector Quantized Generative Adversarial Network)

AIGC实战——VQ-GAN 0. 前言 1. VQ-GAN 2. ViT VQ-GAN 小结系列链接 0. 前言本节中，我们将介绍 VQ-GAN (Vector Quan...

人工智能 2024-05-24 人工智能

733阅读

运行stable-diffusion出现的问题

1、运行txt2img.py出现huggingface下载safety-cheaker问题问题：OSError: We couldn't connect to 'https://huggingface.co' to load this model, c...

AIGC 2024-05-24 人工智能

821阅读

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

Hugging Face：自然语言处理的强大开源模型库在数字化时代，自然语言处理（NLP）技术的崛起为人工智能的发展注入了新的活力。而Hugging Face，作为这一领域的佼佼者，凭借其强大的模型仓库、易用的API以及活跃的社区支持，成为无数NL...

人工智能 2024-05-24 人工智能

1044阅读

51-37 由浅入深理解 Stable Diffusion 3

2024年3月5日，Stability AI公开Stable Diffusion 3论文，Scaling Rectified Flow Transformers for High-Resolution Image Synthesis。公司像往常一样承诺后续...

大数据 2024-05-24 人工智能

517阅读

LLMs之Llama3：Llama-3的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama3：Llama-3的简介、安装和使用方法、案例应用之详细攻略导读：2024年4月18日，Meta 重磅推出了Meta Llama 3，本文章主要介绍了Meta推出的新的开源大语言模型Meta Llama 3。模型架构 Llam...

AIGC 2024-05-24 人工智能

2067阅读

基于分层自监督学习将视觉Transformer扩展到千兆像素图像

本文经计算机视觉研究院公众号授权转载，转载请联系出处。 Vision Transformers (ViT 及其多尺度和分层变体已成功地捕获图像表示，但它们的使用通常被研究用于低分辨率图像（例如256×256、384×384）。 1 概括对于计算病...

生成式AI 2024-05-24 人工智能

547阅读

[从0开始AIGC][Transformer相关]：Transformer中的激活函数：Relu、GELU、GLU、Swish

[从0开始AIGC][Transformer相关]：Transformer中的激活函数文章目录 [从0开始AIGC][Transformer相关]：Transformer中的激活函数 1. FFN 块计算公式？ 2. GeLU 计...

AIGC 2024-05-24 人工智能

677阅读

PVTransformer: 可扩展3D检测的点到体素Transformer

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection 论文链接：https://arxiv.org...

生成式AI 2024-05-24 人工智能

643阅读

AIGC实战——MuseGAN详解与实现

AIGC实战——MuseGAN详解与实现 0. 前言 1. MuseGAN 1.1 Bach Chorale 数据集 1.2 MuseGAN 生成器 1.3 MuseGAN 判别器 2. MuseGAN 分析小结系列链接 0...

大数据 2024-05-24 人工智能

713阅读

探索Llama 3模型在地理行业的应用

Llama 3模型简介 Llama 3模型是基于最新的神经网络架构设计而成，它融合了Transformer和图像注意力机制，能够同时处理自然语言和图像输入，实现跨模态信息的融合和理解。这使得Llama 3模型在地理信息处理和分析方面有着独特的优势...

AIGC 2024-05-24 人工智能

591阅读

LlamaFactory 进行大模型 llama3 微调，轻松上手体验学习

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。汇总合集：《大模型面试宝典...

AIGC 2024-05-24 人工智能

758阅读

AIGC实战——基于Transformer实现音乐生成

AIGC实战——基于Transformer实现音乐生成 0. 前言 1. 音乐生成的挑战 2. MuseNet 3. 音乐数据 3.1 巴赫大提琴组曲数据集 3.2 解析 MI...

人工智能 2024-05-24 人工智能

518阅读

AI大模型探索之路-训练篇25：ChatGLM3微调实战-基于LLaMA-Factory微调改造企业级知识库

系列篇章? AI大模型探索之路-训练篇1：大语言模型微调基础认知AI大模型探索之路-训练篇2：大语言模型预训练基础认知AI大模型探索之路-训练篇3：大语言模型全景解读AI大模型探索之路-训练篇4：大语言模型训练数据集概览AI大模型探索之路-训练篇5：大...

人工智能 2024-05-23 人工智能

1199阅读

我们该如何看待AIGC（人工智能）

目录 AIGC的概述： AIGC的发展经历： AIGC的发展带来的机遇：我们该如何去看待AIGC： AIGC的概述： @[TOC]( ?文章目录 ---AIGC全称为AI-Generated Content，指基于生成对抗网...

人工智能 2024-05-23 人工智能

537阅读

使用自己的数据集训练DETR模型

众所周知，Transformer已经席卷深度学习领域。Transformer架构最初在NLP领域取得了突破性成果，尤其是在机器翻译和语言模型中，其自注意力机制允许模型处理序列数据的全局依赖性。随之，研究者开始探索如何将这种架构应用于计算机视觉任务，特别是...

人工智能 2024-05-23 人工智能

1262阅读

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

蛋白质结构相比于序列往往被认为更加具有信息量，因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破，大量的预测结构被发布出来供人研究使用，如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。西湖大学的研究人员利用F...

AIGC 2024-05-23 人工智能

562阅读

CVPR 2024｜多模态场景感知，小红书高保真人体运动预测方法来了！

设想一下，你在家中准备起身，前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统，已经预测出你的行动路线（路线通畅，避开桌椅障碍物）。当你接近橱柜时，系统已经理解了你的意图，柜门在你达到之前就已自动打开，无需手动操作。视频中，左边为 3D 场景...

AIGC 2024-05-22 人工智能

637阅读

Meta发布类GPT-4o多模态模型Chameleon

Meta最近发布了一个名为Chameleon的多模态模型，它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族，能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构，使用文本、图像...

人工智能 2024-05-21 人工智能

550阅读

250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞

Llama系列作为为数不多的优质开源LLM，一直受到开发者们的追捧。在Hugging Face社区的文本生成模型中，几乎是「霸榜」的存在。就在520这天，一位名叫Nishant Aklecha的开发者在推特上宣布了自己的一个开源项目，名为「从头开始实...

人工智能 2024-05-21 人工智能

656阅读

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

不同于大多数模型使用字母缩略起名，论文作者在脚注中解释道，Lory是一种羽毛有彩虹颜色的鹦鹉，和「软MoE」的精神非常相似。论文的作者团队也可以称之为「明星阵容」。论文地址：https://arxiv.org/abs/2405.03133 主要作者...

生成式AI 2024-05-20 人工智能

561阅读

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并在代码生成任务上全面领先。此后，开发者们便开始了本地部署和实现，比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小...

生成式AI 2024-05-20 人工智能

660阅读

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

GPT-4o的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？ OpenAI将其称为「首个『原生』多模态」模型，意味着GPT-4o与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不...

大数据 2024-05-20 人工智能

606阅读

CVPR'24 Oral | 一览纯稀疏点云检测器SAFDNet的前世今生！

写在前面&笔者的个人理解 3D点云物体检测对自动驾驶感知至关重要，如何高效地从稀疏点云数据中学习特征表示是3D点云物体检测面临的一个关键挑战。我们在本文中将会介绍团队发表在NeurIPS 2023的HEDNet和CVPR 2024的SAFDNet...

人工智能 2024-05-17 人工智能

630阅读

数据库为啥要融合＋AI化？甲骨文Oracle 23ai给出了回答

2017年，一篇名为《Attention is All You Need》的论文提出了一种新的神经网络架构: Transformer。七年后，Transformer成为了生成式AI的核心，正引领着今天的技术浪潮。在甲骨文公司副总裁及中国区董事总经理吴...

生成式AI 2024-05-16 人工智能

524阅读

知识图与大型语言模型的协同作用

从非结构化文本中提取有价值的见解是金融行业的关键应用。然而，这项任务往往超出了简单的数据提取，需要高级推理能力。一个典型的例子是确定信贷协议中的到期日，这通常涉及破译一个复杂的指令，如“到期日应在生效日期三周年之前的最后一个工作日”。这种级别的复杂推...

生成式AI 2024-05-16 人工智能

567阅读

一些 Llama3 微调工具以及如何在 Ollama 中运行

Llama3是Meta提供的一个开源大模型，包含8B和 70B两种参数规模，涵盖预训练和指令调优的变体。这个开源模型推出已经有一段时间，并且在许多标准测试中展示了其卓越的性能。特别是Llama3 8B，其具备小尺寸和高质量的输出使其成为边缘设备或者移动设...

人工智能 2024-05-16 人工智能

4704阅读

首个中文原生DiT架构！腾讯混元文生图大模型全面开源，免费商用

中文 AI 社区迎来了一个好消息：与 Sora 同架构的开源文生图大模型来了！ 5 月 14 日，腾讯宣布旗下混元文生图大模型全面升级并全面开源，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型算法等完整模型...

生成式AI 2024-05-15 人工智能

837阅读