-
无需训练的 Diffusion MoE 方案 (SegMoE): Segmind Mixture of Diffusion Experts
Paper name SegMoE: Segmind Mixture of Diffusion Experts Paper Reading Note Blog URL: https://blog.segmind.com/introducing-seg...
-
深度剖析Google黑科技RB-Modulation:告别繁琐训练,拥抱无限创意生成和风格迁移!
给定单个参考图像,RB-Modulation提供了一个无需训练的即插即用解决方案,用于(a 风格化和(b 具有各种提示的内容样式组合,同时保持样本多样性和提示对齐。例如,给定参考样式图像(例如“熔化的黄金3d渲染样式” 和内容图像(例如(a “狗” ,RB...
-
ECCV2024中有哪些值得关注的扩散模型相关的工作?
Diffusion Models专栏文章汇总:入门与实战 The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation...
-
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了 机器之心 2024年07月19日 12:27 辽宁 AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了200...
-
AI文本生成识别新突破!西湖大学推出Fast-DetectGPT
快科技6月28日消息,西湖大学工学院张岳教授领导的文本智能实验室开发了一种名为Fast-DetectGPT的新文本检测方法。 据悉,该方法能高效识别AI生成的文本,并且Fast-DetectGPT无需训练,即可准确检测包括ChatGPT、GPT-4在内的多...
-
AI画连环画角色更一致了!人物之间的复杂互动也能处理|中山大学&联想团队出品
让AI画漫画角色保持一致的新研究来了! 创作的连环画效果belike: 频繁切换主体、人物之间复杂的互动也能保持角色一致性: 上述效果来自AutoStudio,是一个由中山大学和联想团队联合提出的无需训练的多智能体协同框架。 AutoStudio采用基...
-
ChatGPT 去年至今 0 增长;Sora 风暴仍未停歇,大量 AIGC 视频应用涌现 | AI 头条
一分钟速览新闻点! ChatGPT 用户一年 0 增长,AI 创业公司涌现 UT 奥斯汀推出 StreamingT2V 视频生成技术 DeepDataSpace 发布 T-Rex2,无需训练即可精准识别视频中的各种对象 DALL-...
-
每日AIGC最新进展(22):中国科学院大学提出Zoro-shot视频插帧算法、Adobe研究院提出高效视频扩散模型的叠加网络搜索架构SNED、蚂蚁集团提出视频深度估计算法ChronoDepth
Diffusion Models专栏文章汇总:入门与实战 ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation 本文提出了一种名为Z...
-
CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
循环调用CLIP,无需额外训练就有效分割无数概念。 包括电影动漫人物,地标,品牌,和普通类别在内的任意短语。 牛津大学与谷歌研究院联合团队的这项新成果,已被CVPR 2024接收,并开源了代码。 团队提出名为CLIP as RNN(简称CaR)的新技...
-
笔记1--Llama 3 超级课堂 | Llama3概述与演进历程
1、Llama 3概述 https://github.com/SmartFlowAI/Llama3-Tutorial.git【Llama 3 五一超级课堂 | Llama3概述与演进历程】 2、Llama 3 改进点 【最新【大模型微调】大模...
-
一键转换动漫音!8款好用的AI变声软件
随着人工智能技术的飞速发展,AI变声软件已经成为现实,它们不仅为娱乐领域带来了革新,也为专业领域提供了前所未有的便利。从直播互动到角色扮演游戏,再到专业配音和音频制作,AI变声技术的应用场景日益广泛。 下面我将介绍几款领先的AI变声软件,它们以其独特的功能...
-
黑照变废为宝!超能AI一句话修出创意大片,亲妈看了都说真
2024最wow的AI生图工具出现了! 对“青春纪念手册”下手,你就说这味儿正不正宗: 不信谁没有,谁也别说谁。 别着急,下一秒“啪”的一下: ……什么情况? 这,就是最近摄影圈不少人都在玩的AI修图神器——超能画布。 据说只需一句提示词就能分分钟修出...
-
ELLA官网体验入口 腾讯AI文本到图像语义对齐工具使用介绍
ELLA是一种轻量级方法,可将现有的基于CLIP的扩散模型配备强大的LLM。ELLA提高了模型的提示跟随能力,使文本到图像模型能够理解长文本。我们设计了一个时间感知语义连接器,从预训练的LLM中提取各种去噪阶段的时间步骤相关条件。我们的TSC动态地适应了不...
-
FouriScale官网体验入口 高分辨率图像AI生成工具使用方法教程指南
FouriScale是一款可以从预训练的扩散模型生成高分辨率图像的工具。它通过创新的、无需训练的方法,结合膨胀技术和低通操作的方法,成功实现了灵活处理各种宽高比文本到图像生成。使用FouriScale作为指导,这个工具成功平衡了生成图像的结构完整性和保真度...
-
AI日报:北大Open Sora视频生成更强了;文心一言可以定制你自己的声音;天工 SkyMusic即将免费开放;比Suno好10倍AI音乐应用xgboost曝光
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 🤖📱💼AI应用 北大Open S...
-
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
近期,扩散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图像的惊人能力。通常,这些模型在特定分辨率下进行训练,以确...
-
如何修改大模型的位置编码 --以LLama为例
最近在看RoPE相关内容,一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型,已经训练好了,但是怎么修改已经训练好的模型位置编码。查了以下相关代码,记录一下。原理这里就不细讲了,贴几个相关博客。十分钟读懂旋转编码(RoPE)Tran...
-
基于stable diffusion的IP海报生成
【AIGC】只要10秒,AI生成IP海报,解放双手!!!在AIGC市场发展的趋势下,如何帮助设计工作者解放双手。本文将从图像生成方向切入,帮助大家体系化的学习Stable diffusion的使用,完成自有IP的训练以及生成,主要从部署、训练、生成3大核心...
-
今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练
引言:大语言模型的长上下文理解能力 在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能力成为了一个重要的研究方向。这种能力对于模型来说至关重要,因为它使得LLMs能够有效地应对各种应用场景,例如在...
-
AtomoVideo:AIGC赋能下的电商视频动效生成
✍🏻 本文作者:凌潼、依竹、桅桔、逾溪 1. 概述 当今电商领域,内容营销的形式正日趋多样化,视频内容以其生动鲜明的视觉体验和迅捷高效的信息传播能力,为商家创造了新的机遇。消费者对视频内容的偏好驱动了视频创意供给的持续增长,视觉内容...
-
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈,例如对话式AI系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆。 为了让大模型能够记忆并处理更长的上下文,来自清华大学、麻省理工学院和人民大学的研...
-
最新综述!扩散模型与图像编辑的爱恨情仇
本文经自动驾驶之心公众号授权转载,转载请联系出处。 针对图像编辑中的扩散模型,中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。 全文长达26页,共1.5万余词,涵盖297篇文献,全面研究了图像编辑的各种前沿方法。 同时,作者还提出了全新的be...
-
一文看尽297篇文献!中科院领衔发表首篇「基于扩散模型的图像编辑」综述
本文全面研究图像编辑前沿方法,并根据技术路线精炼地划分为3个大类、14个子类,通过表格列明每个方法的类型、条件、可执行任务等信息。 此外,本文提出了一个全新benchmark以及LMM Score指标来对代表性方法进行实验评估,为研究者提供了便捷的学习参...
-
中科院等万字详解:最前沿图像扩散模型综述
针对图像编辑中的扩散模型,中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。 全文长达26页,共1.5万余词,涵盖297篇文献,全面研究了图像编辑的各种前沿方法。 同时,作者还提出了全新的benchmark,为研究者提供了便捷的学习参考工具。...
-
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。 除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移...
-
AI视野:英伟达推文生图模型ConsiStory;高度可控AI试衣OOTDiffusion;开发者推SoraWebui开源项目;Groq最快AI推理芯片成本推算高得离谱
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 🤖📱💼AI应用 英伟达推出免训练,...
-
FreeControl官网体验入口 AI文本到图像生成工具免费在线使用地址
FreeControl是一个无需训练就可以实现对文本到图像生成过程的可控制的方法。它支持对多种条件、架构和检查点的同时控制。FreeControl通过结构指导实现与指导图像的结构对齐,通过外观指导实现使用相同种子的生成图像之间的外观共享。FreeContr...
-
AI视野:通义千问推AI生成拜年视频;SVD1.1发布; AI对联网络走红;百度将举办Create AI开发者大会
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 🤖📱💼AI应用 通义千问上线AI...
-
SegMoE官网体验入口 AI图像生成框架免费使用地址
SegMoE是一个强大的框架,能够在几分钟内将稳定扩散模型动态组合成专家混合体,无需训练。该框架支持即时创建更大的模型,提供更多知识、更好的粘附性和更好的图像质量。受到 mergekit 的 mixtral 分支的启发,SegMoE 专为 Stable D...
-
【多模态】13、Vision-Language 模型在视觉任务中的调研
文章目录 一、简介 二、基础知识 2.1 视觉任务的训练策略 2.2 VLM 基础 2.2.1 网络结构 2.2.2 预训练目标函数 2.2.3 评估和下游任务 2.3 数据集 三、迁移学习 3.1 使用 prompt tunin...
-
被鹅厂最新开源AI绘画工具PhotoMaker圈粉了,多风格头像生成器就靠它了!
要说本周AIGC开源爆火项目,腾讯的PhotoMaker 可以入选其一。而 PhotoMaker 是腾讯Arc于4天前开源上线到GitHub的,更有一众互联网科技领域大V体验推荐,当前Star已经有4.7k了! 相信小编这篇文章发布时star预测可能达到...
-
无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用
随着人工智能技术的发展,以 GPT-4 为代表的大语言模型依靠其强大的能力正在对社会产生深远的影响。与此同时,大模型本身的安全性问题也变得尤为重要。如何确保大语言模型可以和人类的价值、真实的意图相一致,防止模型被滥用、输出有害的信息,这是大模型安全治理的...
-
LCM-LoRA:通用stable diffusion 加速模块!2023.11.13顶会论文速递!
整理:AI算法与图像处理 欢迎关注公众号 AI算法与图像处理,获取更多干货: 推荐 微信交流群现已有2000+从业人员交流群,欢迎进群交流学习,微信:nvshenj125 B站最新成果demo分享地址:https://s...
-
AI人像生成零成本图像处理软件下载地址 FaceChain-FACT官网体验入口
FaceChain-FACT是一个创新的零成本人像生成工具,为用户提供了一种简便、高效的方式来生成定制化的人像。这款工具的特点是用户无需训练LoRA模型,只需提供一张照片,FaceChain-FACT就能迅速生成定制人像。它集成了基于Transformer...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
精调训练中文LLaMA模型实战教程,民间羊驼模型
羊驼实战系列索引 博文1:本地部署中文LLaMA模型实战教程,民间羊驼模型博文2:本地训练中文LLaMA模型实战教程,民间羊驼模型博文3:精调训练中文LLaMA模型实战教程,民间羊驼模型(本博客) 简介 在学习完上篇【博文2:本地训练中文LLaM...
-
[Stable Diffusion进阶篇]使用Roop插件一键换脸
AI领域大神s0md3v,开源了一个用单图就可以进行视频换脸的项目Roop。你只需要一张所需脸部的图像,没有数据集,无需训练,10秒钟一键换脸。本文介绍ROOP本地部署的安装说明 1.安装ROOP插件 方法1:在SD--扩展--从网址安...
-
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。 为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架...
-
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。 为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框...
-
LCM-LoRA是什么?它如何让实时生成 AI 艺术成为现实
生成 AI 艺术已经成为新技术中最有趣和受欢迎的应用之一,例如 Stable Diffusion 和 Midjourney 等模型已经吸引了数百万用户的使用,此外,OpenAI 还在今年秋季将其 DALL-E3图像生成模型直接集成到其流行的 ChatGPT...
-
AIGC视频生成/编辑技术调研报告
人物AIGC:FaceChain人物写真生成工业级开源项目,欢迎上github体验。 简介: 随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产...
-
【AIGC】一款离线版的AI智能换脸工具V2.0分享(支持图片、视频、直播)
随着人工智能技术的爆发,AI不再局限于大语言模型,在图片处理方面也有非常大的进步,其中AI换脸也是大家一直比较感兴趣的,但这个技术的应用一直有很大的争议。 今天给大家分享一个开源你的AI换脸工具2.0,只需要一张所需脸部的图像,无需数据集,无需训练,你就...
-
AI视野:ChatGPT和API发生重大中断;GPTs分阶段推出计划延迟;中国第二批11个大模型备案获批;阿里将开源720亿参数大模型
???AI新鲜事 ChatGPT和API发生重大中断! 11月9日凌晨,OpenAI在官网发布,ChatGPT和API发生重大中断,导致全球所有用户无法正常使用,宕机时间超过2小时。OpenAI已经找到问题所在并进行了修复,但仍然不稳定,会继续进行安全监控...
-
LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
继火爆全网的AI文生图,文生视频之后,文生3D场景的技术也来了! 只要不到30个字的提示词,瞬间就能生成这样的3D场景。 场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面,倒映出无云的天空,周围的山和水鸟的倒影呈现在湖中。」 「烈日照耀在无垠...
-
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界...