transformer 第14页

Transformer引领AI百花齐放：从算法创新到产业应用，一文读懂人工智能的未来

一、引言近年来，人工智能技术取得了举世瞩目的成果，其中，自然语言处理（NLP）和计算机视觉等领域的研究尤为突出。在这些领域，一种名为Transformer的模型逐渐成为研究热点，以其为核心的创新成果层出不穷。本文将从Transformer的原理、应用和...

大数据 2024-04-03 人工智能

850阅读

大模型中常用的注意力机制GQA详解以及Pytorch代码实现

分组查询注意力 (Grouped Query Attention 是一种在大型语言模型中的多查询注意力 (MQA 和多头注意力 (MHA 之间进行插值的方法，它的目标是在保持 MQA 速度的同时实现 MHA 的质量。这篇文章中，我们将解释GQA的...

AIGC 2024-04-03 人工智能

770阅读

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果，然而，Transformer 中自注意力带来的二次复...

AIGC 2024-04-03 人工智能

807阅读

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和内容重点不同...

人工智能 2024-04-03 人工智能

793阅读

RWKV模型启动工具RWKV Runner新手教程（上）

大家好，今天我们带来了 RWKV Runner 的新手教程。 RWKV Runner 是 RWKV 模型的管理和启动工具，由 RWKV 开源社区成员 josStorer 开发，它本身也是一个开源软件，且体积仅 10MB 左右（不含依赖项）。 RWKV...

人工智能 2024-04-03 人工智能

1049阅读

Meta LLaMA 2实操：从零到一搭建顶尖开源大语言模型【超详篇】

前言本文章由 [jfj] 编写，所有内容均为原创。涉及的软件环境是在nvidia-docker环境进行的，如对docker未了解如何使用的，可以移步上一篇文章nvidia-docker安装详解。在 nvidia-docker 容器中运行时，Dock...

大数据 2024-04-02 人工智能

1508阅读

比肩Transformer的Mamba在时间序列上有效吗？

Mamba是最近最火的模型之一，更是被业内认为可以有取代Transformer的潜力。今天介绍的这篇文章，探索了Mamba模型在时间序列预测任务上是有有效。本文首先给大家介绍Mamba的基础原理，再结合这篇文章探索在时间序列预测场景中Mamba是否有效。...

AIGC 2024-04-02 人工智能

1415阅读

善用AI：智能写作与快速访问的双重优势（附镜像站汇总）

随着人工智能技术的不断发展，我们的日常工作和学习方式正在经历一场革命。在众多创新工具中，GPT（Generative Pre-trained Transformer）已经成为了一个耀眼的明星，而这个月Claude3的登场，再次将人工智能推向新一轮高峰。...

AIGC 2024-04-02 人工智能

826阅读

突破障碍：生成式人工智能如何重塑数据分析领域

在当今市场状况下，企业必须不断寻求新方法来利用技术突破以保持领先地位。生成式人工智能是一个近年来迅速扩展的突出领域。 Gartner预测，到2026年，超过80%的组织将使用生成式人工智能API、模型或应用程序，而2023年这一比例不到5%。生成式人工智...

人工智能 2024-04-02 人工智能

770阅读

扩散模型攻克算法难题，AGI不远了！谷歌大脑找到迷宫最短路径

「扩散模型」也能攻克算法难题？图片一位博士研究人员做了一个有趣的实验，用「离散扩散」寻找用图像表示的迷宫中的最短路径。图片作者介绍，每个迷宫都是通过反复添加水平和垂直墙生成的。其中，起始点和目标点随机选取。从起点到目标点的最短路径中，随机采样...

AIGC 2024-04-02 人工智能

800阅读

LLaMA 模型中的Transformer架构变化

目录 1. 前置层归一化（Pre-normalization） 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入（RoPE） 5. 注意力机制优化 6. Group Query Attention 7. 模型...

AIGC 2024-04-02 人工智能

1185阅读

让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

目前，Video Pose Transformer（VPT）在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来，这些 VPT 的计算量变得越来越大，这些巨大的计算量同时也限制了这个领域的进一步发展，对那些计算资源不足的研究者十分不友好。例如，训练...

人工智能 2024-04-01 人工智能

830阅读

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多...

人工智能 2024-04-01 人工智能

765阅读

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?

自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE 的引入，2022年标志着该领域的...

AIGC 2024-04-01 人工智能

891阅读

全面综述！大模型到底微调个啥？或者说技术含量到底有多大？

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解大型模型代表了多个应用领域的突破性进展，能够在各种任务中取得显著成就。然而，它们前所未有的规模带来了巨大的计算成本。这些模型通常由数十亿个参数组成，需要大量的计算资源才...

AIGC 2024-04-01 人工智能

1540阅读

探索LLaMA模型：架构创新与Transformer模型的进化之路

引言在人工智能和自然语言处理领域，预训练语言模型的发展一直在引领着前沿科技的进步。Meta AI（前身为Facebook）在2023年2月推出的LLaMA（Large Language Model Meta AI）模型引起了广泛关注。LLaMA模型以...

AIGC 2024-04-01 人工智能

1322阅读

如何修改大模型的位置编码 --以LLama为例

最近在看RoPE相关内容，一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型，已经训练好了，但是怎么修改已经训练好的模型位置编码。查了以下相关代码，记录一下。原理这里就不细讲了，贴几个相关博客。十分钟读懂旋转编码（RoPE）Tran...

AIGC 2024-03-31 人工智能

1020阅读

Stable Diffusion之核心基础知识和网络结构解析

Stable Diffusion核心基础知识和网络结构解析一. Stable Diffusion核心基础知识 1.1 Stable Diffusion模型工作流程 1. 文生图(txt2img 2. 图生图 3. 图像优化模块 1.2...

生成式AI 2024-03-31 人工智能

1281阅读

52个AIGC视频生成算法模型介绍

基于Diffusion模型的AIGC生成算法日益火热，其中文生图，图生图等图像生成技术普遍成熟，很多算法从业者开始从事视频生成算法的研究和开发，原因是视频生成领域相对空白。 AIGC视频算法发展现状从2023年开始，AIG...

AIGC 2024-03-30 人工智能

1083阅读

AIGC行业趋势：Sora横空出世，向多模态应用加速迈进

文/浦银国际证券近期，OpenAI的Sora的横空出世再一次引发市场对AIGC的关注，文生视频领域取得重大突破，效果远超预期。我们将围绕Sora的核心优势、技术特点、行业影响、未来趋势等方面进行阐述。相较于此前的文生视频模型，Sora取得哪些突...

AIGC 2024-03-30 人工智能

844阅读

AI21发布世界首个Mamba的生产级模型Jamba 支持256K上下文长度

AI21发布了世界首个Mamba的生产级模型:Jamba。这个模型采用了开创性的SSM-Transformer架构，具有52B参数，其中12B在生成时处于活动状态。Jamba结合了Joint Attention和Mamba技术，支持256K上下文长度。单个...

AIGC 2024-03-29 人工智能

748阅读

超快的 AI 实时语音转文字，比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper

faster-whisper 这个项目是基于 OpenAI whisper 的模型，在上面的一个重写。使用的是 CTranslate2 的这样的一个库，CTranslate2 是用于 Transformer 模型的一个快速推理引擎。在相同精度的情况...

AIGC 2024-03-29 人工智能

1504阅读

如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？首先你需要有硬件的资源，对于硬件来说有2个路径可以选。高性能和低性能，这里的区别就是是功率，因为精...

AIGC 2024-03-29 人工智能

884阅读

Mamba超强进化体一举颠覆Transformer！单张A100跑140K上下文

之前引爆了AI圈的Mamba架构，今天又推出了一版超强变体！人工智能独角兽AI21 Labs刚刚开源了Jamba，世界上第一个生产级的Mamba大模型！ Jamba在多项基准测试中表现亮眼，与目前最强的几个开源Transformer平起平坐。特别是...

大数据 2024-03-29 人工智能

860阅读

OpenAI将推出基于GPTs使用量的分成机制开发者感动哭！

OpenAI，一家在全球范围内广受关注的人工智能公司，近日宣布了一个重大消息。该公司计划在2024年第一季度推出一项名为“GPTs创作者收益计划”的新项目。这个计划的核心是，OpenAI将根据GPTs（Generative Pre-training Tr...

大数据 2024-03-29 人工智能

772阅读

DriveCoT：全面的开环端到端驾驶数据集和Benchmark

本文经自动驾驶之心公众号授权转载，转载请联系出处。近年来，端到端自动驾驶技术取得了显著进展，表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而，端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性，这阻碍了其在真实世界中的部署。本文利用CAR...

生成式AI 2024-03-29 人工智能

1118阅读

首个基于SSM-Transformer混合架构，开源商业大模型Jamba

3月29日，知名AI研究实验室AI21在官网开源了，首个基于SSM-Transformer混合架构的商业大模型——Jamba。目前，ChatGPT、Stable Difusion 、Lyria等产品使用的皆是Transformer架构，虽然在捕捉序列内长...

AIGC 2024-03-29 人工智能

852阅读

【AIGC调研系列】AIGC企业级模型Command-R介绍

Command-R与其他大语言模型的主要区别在于其专为企业级应用设计，特别是在检索增强生成（RAG）和工具使用方面。Command-R是一个350亿参数的高性能生成模型，具有开放式权重，能够支持多种用例，包括推理、摘要和问答[2]。它特别针对大规模生产工作...

大数据 2024-03-28 人工智能

1239阅读

AIGC之入门之详细介绍

一、AIGC初识 AIGC，即Artificial Intelligence Generated Content，指的是生成式人工智能。它可以通过处理人的自然语言，对AI下达指令任务，从而自动生成图片、视频、音频等内容。至于AIGC中的Stable...

大数据 2024-03-28 人工智能

930阅读

Whisper-AT:一个统一语音识别和音频标签的模型

公众号/视频号/小红书/微博：人工智能技术派人工智能技术派(AITECH 成员：hws ⎣语音大模型⎤ Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong...

人工智能 2024-03-28 人工智能

1055阅读

探秘Copilot Clone: 智能代码助手的开源新秀

探秘Copilot Clone: 智能代码助手的开源新秀项目地址:https://gitcode.com/hieunc229/copilot-clone 在当今的软件开发世界中，效率和生产力是每个开发者关注的核心。GitHub 的 Copilot...

大数据 2024-03-28 人工智能

914阅读

Stable Diffusion~自注意力替换技术

在这篇文章中，作者展示了一个较为复杂的基于 Diffusers 开发的自注意力替换示例项目，用于提升 SD 视频生成的一致性。在这个过程中，作者讲述了 AttentionProcessor 相关接口函数的使用，并了解了如何基于全局管理类实现一个代码可维护性...

生成式AI 2024-03-28 人工智能

1486阅读

文心一言4.0相当于GPT几？揭秘AI巨头的实力对比

大家好，小发猫降ai今天来聊聊文心一言4.0相当于GPT几？揭秘AI巨头的实力对比，希望能给大家提供一点参考。降ai辅写以下是针对论文AI辅写率高的情况，提供一些修改建议和技巧，可以借助此类工具：还有：文心一言4.0相当于GPT几？揭秘...

生成式AI 2024-03-27 人工智能

1612阅读

今年，中国AI大模型产业发展看这些

现在的人工智能，已不是「可以用」，而是「非常好用」了。上个星期，谷歌与李世石一次久违的对话，唤起了人们的回忆: 仔细想来，自2016年 AlphaGo 在围棋上打败人类起已过去八年。如今人工智能技术的发展却丝毫没有减速，正在给我们创造更大的震撼。生成式...

AIGC 2024-03-27 人工智能

802阅读

详解Latte：去年底上线的全球首个开源文生视频DiT

随着 Sora 的成功发布，视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。然而，由于视频数据的高度结构化与复杂性，如何将 DiT 扩展到视频生成领...

AIGC 2024-03-27 人工智能

841阅读

Transformer技术的过去、现在与未来

2017年春季，八位谷歌研究人员发表了里程碑式论文《Attention is All You Need》，临近论文发表七周年，这篇论文及其介绍的Transformers架构已经成为AI领域的传奇。Transformers改变了从神经网络技术到生成类似外星...

AIGC 2024-03-27 人工智能

1166阅读

AIGC专题：Sora实现文生视频跨越式突破，AIGC持续正反馈

今天分享的是AIGC专题系列深度研究报告：《AIGC专题：Sora实现文生视频跨越式突破，AIGC持续正反馈》。（报告出品方：国联证券）报告共计：16页来源：人工智能学派 Sora 模型实现众多突破 2 月 16 日，OpenAI 发布了文...

人工智能 2024-03-27 人工智能

813阅读

SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍

本文是DataWhale开源项目Sora原理与技术实战的第二次打卡任务的第一节，主要是简单试用Stable diffusion技术在魔塔社区进行文生图实践。同一打卡任务的其他小节请参见个人主页。目录一.【AIGC简介——以文生图为例】 1.基于生...

AIGC 2024-03-27 人工智能

776阅读

文心一言与ChatGPT对比：谁更胜一筹？

大家好，小发猫降ai今天来聊聊文心一言与ChatGPT对比：谁更胜一筹？，希望能给大家提供一点参考。降ai辅写以下是针对论文AI辅写率高的情况，提供一些修改建议和技巧，可以借助此类工具：还有：文心一言与ChatGPT对比：谁更胜一筹？...

生成式AI 2024-03-27 人工智能

1196阅读

十秒整理搜索结果，脑图表格一键生成，网友：搜索终于有了该有的样子

最近有个AI搜索工具在小圈子里挺火。被疯狂安利的时候打满了这么几个tag：干净清爽、无广告又智能。只要输入一个问题，就能在全网范围内秒秒钟筛选出高质量相关资料摆在你眼前，还有对所有资料的一键整理、总结、归纳。这么神奇的AI工具，我们量子位必须得试...

大数据 2024-03-26 人工智能

754阅读

等不及公开了！最新Sora模型细节揭秘：预计峰值需要72万块H100！每月至少4200块H100！缩放定律依旧有效！

作者 | Matthias·Plappert 翻译 | 言征出品 | 51CTO技术栈（微信号：blog51cto） OpenAI的Sora模型能够生成各种场景的极其逼真的视频，令世界惊叹不已。除了一篇公开的技术报告和TikTok上放出的酷炫视频，就...

AIGC 2024-03-26 人工智能

860阅读

stable-diffusion-webui中stability的sdv1.5和sdxl模型结构config对比

sdv1.5 v1-inference.yaml model: base_learning_rate: 1.0e-04 target: ldm.models.diffusion.ddpm.LatentDiffusion params:...

AIGC 2024-03-26 人工智能

1165阅读

AIGC实战——Transformer模型

AIGC实战——Transformer模型 0. 前言 1. T5 2. GPT-3 和 GPT-4 3. ChatGPT 小结系列链接 0. 前言我们在 GPT (Generative Pre-trained Transfo...

AIGC 2024-03-26 人工智能

921阅读

TensorFlow深度学习框架模型推理Pipeline进行人像抠图推理

概述为了使ModelScope的用户能够快速、方便的使用平台提供的各类模型，提供了一套功能完备的Python library，其中包含了ModelScope官方模型的实现，以及使用这些模型进行推理，finetune等任务所需的数据预处理，后处理，效果...

大数据 2024-03-26 人工智能

816阅读

OpenAI公关跳起来捂他嘴：Transformer作者公开承认参与Q*！｜八位作者最新专访

Q* Transformer作者中唯一去了OpenAI的那位，公开承认了: 他参与了Q*项目，是这项新技术的发明者之一。这几天除了英伟达老黄组局把Transformer作者聚齐，他们中的几位还接受了连线杂志的采访，期间出了这么一个小插曲。当记者试图询问...

大数据 2024-03-25 人工智能

809阅读

大佬谈AI｜库克要让国行版iPhone装上百度AI 周鸿祎剖析库克盘算，黄仁勋、Altman语出惊人！

3月25日消息，过去一周，国内外AI圈子又有众多话题涌现。苹果公司CEO蒂姆·库克（Tim Cook）的中国之行成为观察苹果生成式AI发展动态的窗口；英伟达的2024 GTC大会CEO黄仁勋携新的超级GPU亮相，要为更大规模的生成式AI模型训练扫清算力障碍...

大数据 2024-03-25 人工智能

781阅读

讨论下一个token预测时，我们可能正在走进陷阱

自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后，这一概念逐渐成为现代语言模型的核心部分。最近，围绕下一个 token 预测的讨论日趋激烈。然而，越来越多的人认为，以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺...

人工智能 2024-03-25 人工智能

856阅读

预见AI的下一个十年！从Suleyman到LeCun，三位大佬坐而论道：颠覆医疗保健业、图灵测试升级、AI与物理世界交融

编译丨诺亚出品 | 51CTO技术栈（微信号：blog51cto）近日，人工智能界三位大佬聚首了！一位是最近“跳槽”微软的Inflection AI 联合创始人 Mustafa Suleyman、一位是Cohere的联合创始人兼首席执行官Aida...

大数据 2024-03-25 人工智能

738阅读

离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

去年 8 月，两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI，总部位于日本东京。其中，Llion Jones 是谷歌 2017 年经典研究论文《Attention is all you n...

人工智能 2024-03-25 人工智能

820阅读

使用GaLore在本地GPU进行高效的LLM调优

训练大型语言模型(llm ，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(LoRA 等参数高效方法，可以在消费级gpu上对大量模型进行微调。 G...

大数据 2024-03-25 人工智能

776阅读