transformer 第16页

AIGC学习笔记——CLIP详解加推理

clip论文地址：https://arxiv.org/pdf/2103.00020.pdf clip代码地址：https://github.com/openai/CLIP 小辉问：能不能解释一下zero-shot? 小G答：零次学习（Zero...

大数据 2024-03-13 人工智能

1214阅读

LLM将成历史？开源bGPT或颠覆深度学习范式：直接模拟二进制，开启模拟数字世界新纪元！

微软亚洲研究院推出的最新成果bGPT，这种基于字节的Transformer模型，为我们探索数字世界开辟了新的大门。与传统的基于词表的语言模型不同，bGPT的独特之处在于其对原始二进制数据的直接处理能力，不受特定格式或任务的限制，其目标是全面模拟数字世界...

AIGC 2024-03-13 人工智能

859阅读

万字带你了解ChatGLM

本文分享自华为云社区《【云驻共创】华为云之昇思MindSpore大模型专题（第二期）-第一课：ChatGLM》，作者：愚公搬代码。前言 1.昇思MindSpore 昇思MindSpore是华为公司推出的一款全场景AI计算框架。它提供了自动...

大数据 2024-03-13 人工智能

1152阅读

颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源

DiT作为效果惊艳的Sora的核心技术之一，利用Difffusion Transfomer 将生成模型扩展到更大的模型规模，从而实现高质量的图像生成。然而，更大的模型规模导致训练成本飙升。为此，来自Sea AI Lab、南开大学、昆仑万维2050...

人工智能 2024-03-13 人工智能

1005阅读

揭开LLM智慧涌现的面纱：OpenAI开源调试工具Transformer Debugger深入LLM的神经元秘密

在人工智能的浪潮中，大型语言模型（LLM）以其惊人的语言理解和生成能力成为了研究和应用的热点。从简单的文本分类到复杂的自然语言理解，LLM的应用领域不断扩展，涵盖了机器翻译、情感分析、自动摘要、聊天机器人等多个方面。随着模型规模的增长，它们的内部工作机制...

AIGC 2024-03-13 人工智能

887阅读

蚂蚁金服异常检测和归因诊断分析实践

一、归因诊断在实际工作中，我们常常受到业务方对关键绩效指标（KPI）的灵魂拷问：某个 KPI 指标为什么会上升或下降？归因诊断的任务就是解释这些指标变化的原因。归因诊断把问题的定位过程看作是一个因子对比的过程：指标在基准时间区间的值为 y，...

AIGC 2024-03-13 人工智能

1109阅读

stable diffusion使用相关

IP Adapter，我愿称之它为SD垫图 IP Adapter是腾讯lab发布的一个新的Stable Diffusion适配器，它的作用是将你输入的图像作为图像提示词，本质上就像MJ的垫图。 IP Adapter比reference的效果要好，而且会...

大数据 2024-03-12 人工智能

1443阅读

AI公司生数科技完成新一轮数亿元融资聚焦原生多模态赛道

生数科技是一家成立于2023年的公司，专注于多模态大模型的研发，包括图像、3D 和视频等多种原生多模态大模型。他们的团队来自清华大学人工智能研究院和其他科技公司，拥有深厚的技术背景。该公司最近完成了一轮数亿元的融资，将主要用于多模态基础大模型的研发、产品...

大数据 2024-03-12 人工智能

831阅读

AIGC:语音克隆模型Bert-VITS2-2.3部署与实战

1 VITS2模型 1.1 摘要单阶段文本到语音模型最近被积极研究，其结果优于两阶段管道系统。以往的单阶段模型虽然取得了较大的进展，但在间歇性非自然性、计算效率、对音素转换依赖性强等方面仍有改进的空间。本文提出VITS2，一种单阶段的文本到语音模型...

大数据 2024-03-12 人工智能

1786阅读

Stable Diffusion 3 架构细节大揭秘

在众多前沿成果都不再透露技术细节之际，Stable Diffusion 3 论文的发布显得相当珍贵。 Stable Diffusion 3 的论文终于来了！这个模型于两周前发布，采用了与 Sora 相同的 DiT（Diffusion Transf...

人工智能 2024-03-12 人工智能

1210阅读

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

AGI真的越来越近了！为了确保人类不被AI杀死，在解密神经网络/Transfomer黑箱这一方面，OpenAI从未停下脚步。去年5月，OpenAI团队发布了一个令人震惊的发现：GPT-4竟可以解释GPT-2的三十万神经元！网友纷纷惊呼，智慧原来是这...

人工智能 2024-03-12 人工智能

881阅读

Sora是『神笔马良』还是AI怪物？首篇综述一探乾坤！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解 Sora是一种文本到视频生成的人工智能模型，由OpenAI于2024年2月发布。该模型经过训练，能够从文本指令中生成逼真或想象的场景视频，并显示出在模拟物理世界方面的潜...

生成式AI 2024-03-12 人工智能

1135阅读

AIGC实战——GPT(Generative Pre-trained Transformer)

AIGC实战——GPT 0. 前言 1. GPT 简介 2. 葡萄酒评论数据集 3. 注意力机制 3.1 查询、键和值 3.2 多头注意力 3.3 因果掩码 4. Transformer 4.1 Transformer 块 4.2 位置编...

人工智能 2024-03-12 人工智能

851阅读

Stable-diffusion复现笔记

一、引言目前正在学习有关扩撒模型的相关知识，最近复现了Stable-diffuison，此文主要是想记录一下整体的复现过程以及我在复现过程中出现的一些奇怪的问题以及我的处理方法。这里我的复现主要是针对官网文档实现的，并没有用到webui版本，如果是想体...

大数据 2024-03-12 人工智能

2435阅读

DenseMamba：大模型的DenseNet时刻，Mamba和RetNet精度显著提升

随着 ChatGPT 的突破性进展，大型语言模型（LLMs）迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年，人们目睹了 LLaMA、ChatGLM 等模型的诞生，它们基于 Transformer 架构，采用多...

生成式AI 2024-03-11 人工智能

895阅读

不依赖token，字节级模型来了！直接处理二进制数据

最新GPT，不预测token了。微软亚研院等发布bGPT，仍旧基于Transformer，但是模型预测的是下一个字节（byte）。通过直接处理原生二进制数据，bGPT将所有输入内容都视为字节序列，从而可以不受限于任何特定的格式或任务。能预测CPU...

大数据 2024-03-11 人工智能

751阅读

不依赖Token，字节级模型来了！直接处理二进制数据

最新GPT，不预测token了。微软亚研院等发布bGPT，仍旧基于Transformer，但是模型预测的是下一个字节（byte）。通过直接处理原生二进制数据，bGPT将所有输入内容都视为字节序列，从而可以不受限于任何特定的格式或任务。能预测CPU...

大数据 2024-03-11 人工智能

753阅读

奥特曼老黄齐预测：AGI五年内降临，代替95%工作！但马斯克断言AGI将被电力卡脖子

Claude 3、Sora、Gemini 1.5 Pro的纷纷出现，以及或许今年内就会被放出的GPT-5，让所有人都不约而同地隐隐感觉：我们似乎离AGI似乎越来越近了。 OpenAI CEO Sam Altman坚定地认为，AGI将在5年内实现。不过，...

大数据 2024-03-11 人工智能

816阅读

当prompt策略遇上分治算法，南加大、微软让大模型炼成「火眼金睛」

近年来，大语言模型（LLMs）由于其通用的问题处理能力而引起了大量的关注。现有研究表明，适当的提示设计（prompt enginerring），例如思维链（Chain-of-Thoughts），可以解锁 LLM 在不同领域的强大能力。然而，在处理涉及重...

AIGC 2024-03-11 人工智能

914阅读

一键Run带你体验扩散模型的魅力

在文生视频领域，Sora将带来短视频的智能化变革，打破当前内容平台等额原有数据壁垒，短视频创作的生态护城河，同时Sora融入短视频工作流，极大的增强用户的体验，降低创作难度和成本，极大拓展创作者的能力边界，激发短视频创作空间。在视频创作...

生成式AI 2024-03-11 人工智能

836阅读

谷歌工程师硬核长篇预测，证实黄仁勋观点：AGI或在2029年出现，AI五年内通过人类测试

最近，英伟达CEO黄仁勋表示，AI会在五年内通过人类测试，AGI将很快到来！在斯坦福大学举行的一个经济论坛上，黄仁勋回答了这个问题：人类何时能创造像人类一样思考的计算机？这也是硅谷的长期目标之一。老黄是这样回答的：答案很大程度上取决于我们如何定义...

AIGC 2024-03-11 人工智能

812阅读

Pika放大招：今天起，视频和音效可以“一锅出”了！

就在刚刚，Pika发布了一项新功能：很抱歉我们之前一直处于静音状态。今天起，大家可以给视频无缝生成音效了——Sound Effects！生成的方式有两种：要么给一句Prompt，描述你想要的声音；要么直接让Pika根据视频内容自动生成。...

人工智能 2024-03-11 人工智能

859阅读

告别繁琐的手动调参，Optuna助您轻松实现超参数优化！

在机器学习和深度学习领域，超参数优化是一个至关重要的任务。通过调整模型的超参数，我们可以提高模型的性能和泛化能力。然而，手动调整超参数是一项繁琐且耗时的任务，因此自动化超参数优化成为了一种常见的解决方案。在Python中，Optuna是一个流行的超参...

生成式AI 2024-03-11 人工智能

972阅读

我们一起聊聊大模型的模型融合方法

模型融合大家以前用的很多，特别是在判别模型里，属于永远都能稳定提升的那一类方法。但是生成语言模型，因为解码的过程存在，并不像判别模型那样直观。另外，由于大模型的参数量增大，在参数规模更大的场景，简单的集成学习可以考量的方法相比低参数的机器学习更受限制，...

人工智能 2024-03-11 人工智能

1052阅读

谷歌具身智能新研究：比RT-2优秀的RT-H来了

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密，人工智能正在越来越多地走向现实世界，因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中，谷歌的「RT」系列机器人始终走在前沿（参见《大模型正在重构机器人，谷歌 Deepmind 这样...

人工智能 2024-03-11 人工智能

822阅读

让大模型“瘦身”90%！清华&哈工大提出极限压缩方案：1bit量化，能力同时保留83%

对大模型进行量化、剪枝等压缩操作，是部署时最常见不过的一环了。不过，这个极限究竟有多大? 清华大学和哈工大的一项联合研究给出的答案是: 90%。他们提出了大模型1bit极限压缩框架OneBit，首次实现大模型权重压缩超越90%并保留大部分（83%）能力...

AIGC 2024-03-10 人工智能

922阅读

谷歌最强轻量级开源大模型Gemma：小尺寸可商用，性能超越Llama-2，个人PC就能用

前言谷歌近日发布了其最新的轻量级、开源AI模型——Gemma，这一举措无疑在AI领域引起了广泛的关注。不同于其他闭源大模型，Gemma的推出标志着谷歌在开放模型领域的重要一步，意图通过开放、共享的方式，加速AI技术的普及和应用。 Gemma模型概...

人工智能 2024-03-10 人工智能

1030阅读

“羊驼“入侵CV，美团&浙大沈春华团队将LLaMA向CV扩展，构建全新基础模型VisionLLaMA

本文首发:AIWalker https://arxiv.org/abs/2403.00522 https://github.com/Meituan-AutoML/VisionLLaMA 本文概述大型语言模型构建在基于Transf...

AIGC 2024-03-10 人工智能

882阅读

LLaMA-2 下载&demo使用

LLaMA-2 下载&demo使用 1. LLaMA-2 下载&demo使用 1.1 meta官网 1.2 huggingface 1.3 其他源 1.4 huggingface下载模型和数据加速 1. LLaM...

生成式AI 2024-03-09 人工智能

1120阅读

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace，FaceChain团队出品

一、论文本文介绍被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Persp...

大数据 2024-03-09 人工智能

1169阅读

24｜Stable Diffusion：最热门的开源AI画图工具

上一讲，我们一起体验了 CLIP 这个多模态的模型。在这个模型里，我们已经能够把一段文本和对应的图片关联起来了。看到文本和图片的关联，想必你也能联想到过去半年非常火热的“文生图”（Text-To-Image）的应用浪潮了。相比于在大语言模型里 OpenAI...

生成式AI 2024-03-08 人工智能

915阅读

破茧而出：从困惑到爆发的AI写作之旅

大家好，小发猫降重今天来聊聊破茧而出：从困惑到爆发的AI写作之旅，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：破茧而出：从困惑到爆发的AI写作之旅在数字时代的浪潮中，AI写作逐渐成...

人工智能 2024-03-08 人工智能

845阅读

Python爬虫基础到实战：构建自己的数据收集工具

在当前信息化的时代背景下，数据采集对于各行各业的重要性与日俱增。因此，熟练掌握一门编程语言并能灵活使用爬虫技术获取所需的数据资料已成为诸多数据工作者和专业研发人士的标配能力之一。本篇文章会从基础入门知识，渐进深入直至涉及复杂的爬虫设计与部署方略，围绕Pyt...

人工智能 2024-03-08 大数据

849阅读

文心一言 VS ChatGPT-4

文心一言和ChatGPT-4都是非常强大的自然语言处理模型，它们都能够在对话系统和其他NLP应用中发挥巨大的作用。然而，它们之间还是存在一些区别：训练数据：ChatGPT-4是由OpenAI训练的，它使用了大量的网络文本来进行训练，因此它具有非常广...

大数据 2024-03-08 人工智能

930阅读

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

很快啊，“文生图新王”Stable Diffusion 3的技术报告，这就来了。全文一共28页，诚意满满。 “老规矩”，宣传海报（⬇️）直接用模型生成，再秀一把文字渲染能力：所以，SD3这比DALL·E 3和Midjourney v6都要强的文字...

大数据 2024-03-08 人工智能

953阅读

AI图像合成技术的新浪潮：Stable Diffusion 3与Sora构架的突破

在人工智能的黄金时代，图像合成技术正以前所未有的速度发展。从简单的图像编辑到复杂的场景生成，AI的能力已经超越了传统软件的限制，开启了创意和视觉表达的新纪元。近期，Stable Diffusion 3技术报告的流出引起了业界的广泛关注，其背后的Sora构...

人工智能 2024-03-08 人工智能

938阅读

ADMap：抗干扰在线高精地图新思路

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解大家好，很开心能够受邀来到自动驾驶之心分享我们的在线重建矢量化高精度地图的抗扰动方法ADMap。我们的代码已经发布在https://github.com/hht199...

人工智能 2024-03-08 人工智能

1036阅读

性能8.6倍于竞品！高通AI大揭秘：NPU引领四兄弟无敌

生成式AI的变革，对于基础硬件设计、软件生态开发都提出了新的、更高的要求，尤其是底层硬件和算力必须跟上新的形势，并面向未来发展做好准备。近日，高通特别发布了《通过NPU和异构计算开启终端侧生成式AI》白皮书，对于终端侧生成式AI的发展趋势，以及高通骁龙处...

AIGC 2024-03-07 人工智能

907阅读

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。沿袭 ViT 的研究思路，我们能否借助创新性的 LLaMA 架构，真正实现语言和图像的架构统一？在这一命题上，最近的一项研究 Visi...

生成式AI 2024-03-07 人工智能

833阅读

CVPR 2023 | 最全 AIGC 论文清单汇总版，30个方向130篇！

目录 1、图像转换/翻译 2、GAN改进/可控 3、可控文生图/定制化文生图 4、图像恢复 5、布局可控生成 6、医学图像 7、人脸相关 8、3D相关 9、deepfake检测 10、图像超分 11、风格迁移 12、去雨去噪去模糊 13、图像分割 14、视...

AIGC 2024-03-07 人工智能

1341阅读

Stable Diffusion 解析：探寻 AI 绘画背后的科技神秘

AI 绘画发展史在谈论 Stable Diffusion 之前，有必要先了解 AI 绘画的发展历程。早在 2012 年，华人科学家吴恩达领导的团队训练出了当时世界上最大的深度学习网络。这个网络能够自主学习识别猫等物体，并在短短三天时间内绘制出了一...

大数据 2024-03-07 人工智能

936阅读

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Stable Diffusion 3 的论文终于来了！这个模型于两周前发布，采用了与 Sora 相同的 DiT（Diffusion Transformer）架构，一经发布就引起了不小的轰动。与之前的版本相比，Stable Diffusion 3 生成...

AIGC 2024-03-06 人工智能

911阅读

一文总结扩散模型（Diffusion Model）在时间序列中的应用

扩散模型是目前生成式AI中的最核心模块，在Sora、DALL-E、Imagen等生成式AI大模型中都取得了广泛的应用。与此同时，扩散模型也被越来越多的应用到了时间序列中。这篇文章给大家介绍了扩散模型的基本思路，以及几篇扩散模型用于时间序列的典型工作，带你...

AIGC 2024-03-06 人工智能

1253阅读

谷歌掀桌子！开源Gemma：可商用，性能超过Llama 2！

2月22日，谷歌在官网宣布，开源大语言模型Gemma。 Gemma与谷歌最新发布的Gemini 使用了同一架构，有20亿、70亿两种参数，每种参数都有预训练和指令调优两个版本。根据谷歌公布的测试显示，在MMLU、BBH、GSM8K等主流测试平台中，其...

大数据 2024-03-06 人工智能

808阅读

Stable Diffusion 3技术报告流出，Sora构架再立大功！生图圈开源暴打Midjourney和DALL·E 3？

Stability AI在发布了Stable Diffusion 3之后，今天公布了详细的技术报告。论文深入分析了Stable Diffusion 3的核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构！报告地址： http...

生成式AI 2024-03-06 人工智能

919阅读

PPIO王闻宇：论GPU的过去、现在和未来｜AIGC基石思考之算力哲学

00 前言：算力与GPU 算力，即计算能力（Computing Power）。更具体来说，算力是通过对信息数据进行处理，实现目标结果输出的计算能力。最早的算力引擎。是人类的大脑，后来演变成草绳、石头、算筹（一种用于计算的小棍子）、算盘。到...

大数据 2024-03-06 人工智能

1384阅读

Stable Diffusion 3：创新技术引领未来趋势

文章目录 Stable Diffusion 3：创新技术引领未来趋势摘要 Stable Diffusion 3 的发布技术发展方向行业影响总结： Stable Diffusion 3：创新技术引领未来趋势摘要在...

生成式AI 2024-03-06 人工智能

994阅读

论文精读--DALL·E 2

使用CLIP训练好的特征做层级式的依托于文本的图像生成，层级式是指生成小分辨率图片后不断用模型上采样得到高清大图 CLIP将输入的文本变成一个文本特征，然后DALLE2训练一个prior模型，输入是文本特征输出是图像特征，最后把图像特征喂给解码器得到图片...

生成式AI 2024-03-05 人工智能

1048阅读

Stability AI发布SD3技术报告披露SD3更多细节

Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3（SD3）的技术报告，披露了 SD3的更多细节。据 Stability AI 所说，SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型，...

生成式AI 2024-03-05 人工智能

989阅读

使用直接偏好优化策略微调Mistral-7b模型

译者 | 朱先忠审校 | 重楼引言通常，经过预训练的大型语言模型（LLM）只能执行下一个标记预测，这使其无法回答问题。这就解释了为什么这些基本模型还需要根据成对的指令和答案作进一步微调，最终才能够充当真正有用的人工助理。然而，这个过程仍然可能存在...

AIGC 2024-03-05 人工智能

1193阅读