-
北航发布LlamaFactory,零代码大模型微调平台,一键快速实现大模型训练/微调/评估
“LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models” 在大模型发展如火如荼的今天,训练和微调一个大模型对于绝大部分普通工程师来说仍然是一个难题。为了降低大模型训练、...
-
如何将大型语言模型(LLM)转换为嵌入模型
译者 | 李睿 审校 | 重楼 实验证明,LLM2Vec模型在嵌入任务上具有更好的性能,它可以为组织开辟新的场所,并以非常低的成本快速创建专门的嵌入模型。 嵌入模型已经成为大型语言模型(LLM 应用的重要组成部分,可以实现检测文本相似度、信息检索和聚类...
-
AIGC笔记--特征线性调制(FiLM)层的实现
目录 1--特征线性调制层的作用 2--特征线性调制层的实现 3--论文实例 1--特征线性调制层的作用 特征线性调制(Feature-wise Linear Modulation,FiLM)层是一种神经网络模块...
-
AI绘画之网上大火的 “隐藏字” 效果怎么制作?只需 5 步教会你!
大家好,我是灵魂画师向阳 一、什么是“隐藏字”? 废话不多说,上图! 我不说,你能看出来这张图片有字吗? 很多人可能觉得不可思议,这张图哪来的字啊?就一张正常的图而已。而有些人可能依稀觉得是有文字的,但是又说不出来到底是什么。 让我们换种...
-
AI绘画SD 教程 - 采样器详解及对比,建议收藏!
主业写代码,副业做 AI 大家好,我是程序员晓晓 采样器详解及对比 在图像生成领域,采样器是一种关键的算法组件,用于从模型学习到的概率分布中生成图像。简单来说,采样器的作用是根据模型的预测,决定如何步步细化最终图像的每一个像素,从而确保生成的图像既...
-
AI绘图Stable Diffusion中关键技术:U-Net的应用
你好,我是郭震 引言 在人工智能和深度学习的迅猛发展下,图像生成技术已经取得了令人瞩目的进展。特别是,Stable Diffusion模型以其文本到图像的生成能力吸引了广泛关注。本文将深入探讨Stable Diffusion中一个关键技术——...
-
Domo AI 上线唇形同步功能:提升面部对话视频转换效果
视频来自Domo AI官方 近日,Domo AI 宣布上线了唇形同步功能,使带有面部对话特写的视频在转换风格时,嘴部动画可以同步。通过选择3. 0 风格并启用“唇形同步”选项,用户可以体验到更自然流畅的面部对话视频转换效果。 唇形同步功能的上线标志着 Do...
-
UIUC发布StarCoder2-15B-Instruct代码大模型 无需OpenAI数据登上性能榜单
UIUC与BigCode组织的研究者们最近发布了StarCoder2-15B-Instruct代码大模型,这一创新成果在代码生成任务方面取得了显著突破。这款模型成功超越了CodeLlama-70B-Instruct,登上了代码生成性能榜单之巅。 StarC...
-
Fine-Tuning Vs RAG ,该如何选择?
Hello folks,我是 Luga,今天我们来聊一下人工智能(AI 生态领域相关的技术 - LLM 构建块:向量、令牌和嵌入 。 随着技术的不断进步,LLM 带来了前所未有的机遇,吸引了开发者和组织纷纷尝试利用其强大的能力构建应用程序。然而,当预训...
-
生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 简介 当前,RAG(检索增强生成 系统的新评估似乎每天都在发布,其中许多都集中在有关框架的检索阶段。然而,生成方面——模型如何合成和表...
-
快3倍!Meta 违背经典模型结构,一次预测多个token,路径可行,大模型大幅提速指日可待!
编译|伊风 出品 | 51CTO技术栈(微信号:blog51cto) 众所周知,LLMs的工作原理是对下一个token进行预测。 读者朋友们有没有曾这样想过:如果LLM一次预测n个token呢?那是不是就快n倍?Meta也是这样想的!并且付诸实践。 在最...
-
Meta 发布新多token预测技术,使AI模型速度提升3倍
近期,Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的研究人员在一项研究中提出了一种改进 AI 大型语言模型(LLMs)准确性和速度的方法,即通过同时预测多个token。这与自回归语言模型...
-
写真视频击败Sora?人大自研全新多模态大模型Awaker 1.0震撼登场
在人工智能领域,人大系初创公司智子引擎近日发布了一款名为Awaker1.0的全新多模态大模型,标志着向通用人工智能(AGI)迈出了重要一步。该模型在写真视频效果上超越了Sora,展现了其在视觉生成方面的卓越能力。 4月27日,在中关村论坛的通用人工智能平...
-
超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题
哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。 训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。 尤其在多模态任务中,这一问题尤为突出。 一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模...
-
探讨自回归模型和扩散模型的发展应用
在当前大模型驱动的内容创新浪潮中,人工智能产业正以前所未有的力度拥抱一场由大模型技术策动的科技革新运动。这场革命不仅重塑了人机交互的边界,使其跃升至更高层次的认知协作,而且正在颠覆传统的计算思维与执行模式,催生出全新的计算范式,从而深刻地渗透并革新各行各...
-
革新LLM微调之道:全方位解读PyTorch原生库torchtune的创新力量与应用价值
在人工智能领域,大语言模型(LLMs)正日益成为研究和应用的新热点。然而,如何高效、精准地对这些庞然大物进行调优,一直是业界和学术界面临的重要挑战。近期,PyTorch官方博客发布了一篇关于TorchTune的文章,引起了广泛关注。TorchTune作为...
-
Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址
Diffusion-RWKV是一种基于RWKV架构的扩散模型,旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进,可以生成高质量的图像。该模型支持无条件和类条件训练,具有较好的性能和可扩展性。 点击前往Diffusion-RWKV官网体...
-
AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)
AIGC实战——ProGAN 0. 前言 1. ProGAN 2. 渐进式训练 3. 其他技术 3.1 小批标准差 3.2 均等学习率 3.3 逐像素归一化 4. 图像生成 小结 系列链接 0. 前言 我们已经学习了使用生成对...
-
ImagenHub官网体验入口 AI图像生成模型评估平台使用指南方法教程
ImagenHub是一个一站式库,用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。其次,我们构建了一个统一的推理管道来确保公平比较。第三,我们设计了两个人工评估指标,即语义一致性和感知质量,并制定了全面...
-
文心一言赋能问卷生成,打造高效问卷调研工具
当前,各种大语言模型(LLM,Large Language Model)井喷式发展,基于LLM的应用也不断涌现。但是,当开发者基于LLM开发下游应用时,LLM直接生成的结果在格式、内容等方面都存在许多不确定因素,难以与其他业务逻辑代码做数据交互,导致开发者...
-
文生图大模型三部曲:DDPM、LDM、SD 详细讲解!
1、引言 跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等 之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有: 文生图大模型:如 Stable Diffusion系列、DALL-E系列、Imagen等 图文匹配大模型:如CLI...
-
扩散模型攻克算法难题,AGI不远了!谷歌大脑找到迷宫最短路径
「扩散模型」也能攻克算法难题? 图片 一位博士研究人员做了一个有趣的实验,用「离散扩散」寻找用图像表示的迷宫中的最短路径。 图片 作者介绍,每个迷宫都是通过反复添加水平和垂直墙生成的。 其中,起始点和目标点随机选取。 从起点到目标点的最短路径中,随机采样...
-
探索LLaMA模型:架构创新与Transformer模型的进化之路
引言 在人工智能和自然语言处理领域,预训练语言模型的发展一直在引领着前沿科技的进步。Meta AI(前身为Facebook)在2023年2月推出的LLaMA(Large Language Model Meta AI)模型引起了广泛关注。LLaMA模型以...
-
量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以...
-
使用文心一言实现AI创作论文的源码实现方案
随着人工智能技术的不断发展,AI创作论文已经成为现实。文心一言作为百度推出的强大自然语言处理模型,能够生成高质量的文本内容。本方案旨在结合uniapp、Vue、Spring Boot、MySQL和MyBatis等技术栈,实现基于文心一言的AI创作论文系统。...
-
TOXCL:用于检测和解释隐性有毒言论的统一AI框架
社交媒体上的毒性言论可能会像野火般蔓延,特别是针对个人和边缘化群体。明显的仇恨言论相对容易被发现,但隐含毒性——依赖于刻板印象和编码语言而不是明显的侮辱——提出了更为棘手的挑战。如何训练人工智能系统不仅能够检测到这种隐晦的毒性,还能解释为何它是有害的呢?...
-
Stable Diffusion 3 来了 —— 充满了巨大的改进
文章目录 什么是Stable Diffusion 3? Stable Diffusion 3 有哪些新功能? Stable Diffusion 3 对比 Dall-E 3 和 Gemini 如何获得Stable Diffusion 3 的访问权...
-
Video-LLaMa:利用多模态增强对视频内容理解
在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...
-
DifFlow3D:场景流估计新SOTA,扩散模型又下一城!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based...
-
讨论下一个token预测时,我们可能正在走进陷阱
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。 然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺...
-
揭秘Baichuan 3超越GPT-4的中文实力!文心一言、GLM 4.0也甘拜下风?全方位对比测试大揭秘!
AI界的焦点再度聚集!1月29日,百川智能推出了超千亿参数的大语言模型Baichuan 3,瞬间在科技圈点燃了热情。不同于其他模型,Baichuan 3在中文各项评测中都有惊艳表现,甚至在任务上超越了GPT-4,成为了新的领头羊。 Baichuan 3不...
-
【AIGC调研系列】智普GLM-3与GLM-4分别适用于什么使用场景
智普GLM-3与GLM-4分别适用于不同的使用场景。GLM-4是一款性能全面提升的新型大模型,它在总结、信息抽取、复杂推理、代码等应用场景中表现出色[1]。GLM-4支持更长的上下文、更强的多模态支持和更快速的推理[2],能够完成文件处理、数据分析、图表绘...
-
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了
Sora 是首个引起社会广泛关注的大规模通用视频生成模型。自 OpenAI 在 2024 年 2 月推出以来,没有其他视频生成模型能够在性能或支持广泛视频生成任务的能力上与 Sora 匹敌。此外,完全公开的视频生成模型寥寥无几,大多数都是闭源的。 为了弥...
-
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
微软版Sora诞生了! Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。 尽管提出了Diffusion Transformer和空间patch策略,但想要达到Sora的性能还是很难,何况还缺乏算力和数据集...
-
Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切
转自知乎:叫我Alonzo就好了 前言 背景——Sora和Stable Diffusion 3 近期,OpenAI和Stability两大AI巨头公司在同期分别发布了它们的新作品——Sora和Stable Diffusion 3。神奇的是,这...
-
谷歌AI推出新型评分器Cappy 助力多任务语言模型性能提升
在最新的研究论文中,谷歌研究人员引入了一种名为Cappy的预训练评分器模型,旨在增强和超越大型多任务语言模型的性能。这项研究旨在解决大型语言模型(LLM)所面临的挑战,其中包括高昂的计算资源成本和效率低下的训练和推理过程。 目前,多任务法学硕士如T0、F...
-
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」
在视觉生成领域迅速发展的过程中,扩散模型已经彻底改变了这一领域的格局,通过其令人印象深刻的文本引导生成功能标志着能力方面的重大转变。 然而,仅依赖文本来调节这些模型并不能完全满足不同应用和场景的多样化和复杂需求。 鉴于这种不足,许多研究旨在控制预训练文本...
-
微软AI程序员登场,10倍AI工程师真来了?996自主生成代码,性能超GPT-4 30%
全球首个AI程序员Devin的横空出世,可能成为软件和AI发展史上一个重要的节点。 它掌握了全栈的技能,不仅可以写代码debug,训模型,还可以去美国最大求职网站Upwork上抢单。 一时间,网友们惊呼,「程序员不存在了」? 甚至连刚开始攻读计算机学位...
-
Glyph-ByT5:确保AI绘画图片中文字渲染的准确性并自动排版
在当今的数字时代,图像生成任务的重要性日益凸显。然而,一个长期存在的问题是文本渲染的准确性。幸运的是,一个新的文本编码器——Glyph-ByT5,已经将这个问题解决了。 Glyph-ByT5是一个强大的工具,它可以显著提高图像生成中文本渲染的准确性。在实际...
-
Glyph-ByT5官网体验入口 AI文本编码器与图像生成工具在线使用地址
Glyph-ByT5是一种定制的文本编码器,旨在提高文本到图像生成模型中的视觉文本渲染准确性。它通过微调字符感知的ByT5 编码器并使用精心策划的成对字形文本数据集来实现。将Glyph-ByT5 与SDXL集成后,形成了Glyph-SDXL模型,使设计图像...
-
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
大型语言模型(LLMs)的发展极大地推动了代码生成领域的发展,之前有工作将强化学习(RL)与编译器的反馈信号集成在一起,用于探索LLMs的输出空间,以提高代码生成质量。 但当下还存在两个问题: 1. 强化学习探索很难直接适配到「复杂的人类需求」,即要求L...
-
Stable Diffusion——文生图界面参数讲解与提示词使用技巧
Clip终止层数 什么是Clip CLIP(Contrastive Language-Image Pretraining)是由OpenAI于2021年开发的一种语言图像对比预训练模型。其独特之处在于,CLIP模型中的图像和文本嵌入共享相同的潜在...
-
AI绘画中VAE压缩图像
介绍 在Stable Diffusion中,所有的去噪和加噪过程并非在图像空间直接进行,而是通过VAE模块将图像编码到一个低维空间。 这个低维空间的“分辨率”低于原始图像空间,有利于快速地完成加噪和去噪过程。 最后再将编码空间中的噪声表示解码恢复为...
-
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。 但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。 论文地址:h...
-
Stable Diffusion 3 发布及其重大改进
1. 引言 就在 OpenAI 发布可以生成令人瞠目的视频的 Sora 和谷歌披露支持多达 150 万个Token上下文的 Gemini 1.5 的几天后,Stability AI 最近展示了 Stable Diffusion 3 的预览版。 闲话少...
-
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。 现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知...
-
UniVG体验入口 百度AI视频生成模型如何使用教程方法指南
UniVG是一款由百度推出的视频生成模型,其独特之处在于针对高自由度和低自由度两种任务采用不同的生成方式,以更好地平衡两者之间的关系。 点击前往UniVG体验入口 UniVG项目针对多模态视频生成场景,如影视特效制作和视频内容创作,提供了创新的多条件交叉...
-
京东电商知识图谱与AIGC落地
导读 本文将分享如何将知识图谱应用到电商场景下的 AIGC。 文章将围绕下面五个方面进行分享: 1. 导言 2. 基于领域知识图谱的商品文案生成 3. 基于通用知识图谱的商品文案生成 4. 基于领域知识图谱的 LLM 5. 基于通用知识图谱的...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支...