-
Midjourney如何实现人物角色的一致性?
在数字艺术和AI生成媒体的发展中,保持人物一致性是一个巨大的挑战。Midjourney作为一个先进的图像生成平台,它如何确保在连续的图像生成过程中,同一人物能保持一致的外观和特征呢?本文将深入探讨Midjourney如何通过技术手段实现这一点。 一、两个...
-
ComfyUI基础篇:Stable Diffusion 基础原理详述
前言 个人认为学习 ComfyUI 应该先从理论学起。 与传统绘图工具(如 Photoshop 或 Figma)相比,AI 绘图工具有着显著不同。首先,许多设置和操作在 AI 绘图工具中是非可视化的,这意味着即使你更改了某个配置,界面上也未必会有任何变...
-
京东广告研发——AIGC在京东广告创意的技术应用
一、前言 电商广告图片不仅能够抓住消费者的眼球,还可以传递品牌核心价值和故事,建立起与消费者之间的情感联系。然而现有的广告图片大多依赖人工制作,存在效率和成本的限制。尽管最近AIGC技术取得了卓越的进展,但其在广告图片的应用还存在缺乏卖点信息、难以规模...
-
深入浅出理解 AI 生图模型 Stable Diffusion
Stable Diffusion 概述 为了降低理解成本,我会尽量减少有关数学的知识点,并尽量用类比的方式,帮助你理解一些概念。所以有可能出现不够严谨的情况,如果你有更好的解释,欢迎留言。 Stable Diffusion(稳定扩散)严格说来...
-
每日AIGC最新进展(34):特拉维夫大学提出多主题扩散模型Be Yourself、阿里巴巴提出个性化人脸生成方法FlashFace、清华大学提出快速评估扩散模型方法FlashEval
Diffusion Models专栏文章汇总:入门与实战 Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation 本文探讨了文本到图像生成领域中的一个关...
-
霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+
一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。 一种名为Hallo的研究火了,GitHub已揽星1k+。 话不多说,来看更多效果: 不论是说话还是唱歌,都能和各种风格的人像相匹配。从口型到眉毛眼睛动作,各种五官细节都很自然。 单独...
-
从商品图到海报生成 京东广告AIGC创意技术应用
一、前言 电商广告图片不仅能够抓住消费者的眼球,还可以传递品牌核心价值和故事,建立起与消费者之间的情感联系。然而现有的广告图片大多依赖人工制作,存在效率和成本的限制。尽管最近 AIGC 技术取得了卓越的进展,但其在广告图片的应用还存在缺乏卖点信息、难以规...
-
综述!全面概括基础模型对于推动自动驾驶的重要作用
写在前面&笔者的个人理解 近年来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。...
-
超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文介绍了一种用于3D目标检测和多目标跟踪的相机-毫米波雷达融合方法(CR3DT)。基于激光雷达的方法已经为这一领域奠定了一个高标准,但是其高算力、高成本的缺陷制约了...
-
新加坡国立大学 | 通过语言分割任何3D目标
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文研究了具有自由形式语言指令的开放词汇3D实例分割(OV-3DIS)。先前的作品只依赖于注释的基本类别进行训练,对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...
-
等等我还没上车!LLM赋能端到端全新范式LeGo-Drive,车速拉满
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者个人理解 这篇论文介绍了一种名为LeGo-Drive的基于视觉语言模型的闭环端到端自动驾驶方法。该方法通过预测目标位置和可微分优化器规划轨迹,实现了从导航指令到目标位置的端到端闭...
-
对抗「概念飘逸」难题!谷歌发布全新时间感知框架:图像识别准确率提升15%
在机器学习领域,概念漂移(concept drift)问题长期困扰着研究者,即数据分布随时间发生变化,使得模型难以持续有效。 一个显著的例子是CLEAR非稳态学习基准的图像展示,它揭示了物体视觉特征在十年间发生的显著变化。 这种现象被称为「缓慢的概念漂移...
-
基于参考物体的AIGC图像生成技术在家居导购领域的应用
本文深入探讨了基于参考物体的人工智能图像生成(AIGC)技术的最新进展。首先概述了该类技术如何发展至今,然后着重分析了两篇重要的相关学术论文。随后,文章针对家居导购领域的特殊应用场景,讨论了运用此项技术时遭遇的挑战和取得的最新效果。...
-
stable-diffusion、stable-diffusion-webui、novelai、naifu区别介绍
文章目录 1. Stable Diffusion Reference 2. Stable Diffusion WebUI Reference 3. NovelAI Reference 4. Naifu Reference 区别简述 Refere...
-
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
具身智能,是大模型未来应用的一个重要方向。 现在,大模型加持下的智能体,能够参与3D环境,不仅有了听觉视觉,还有了触觉等多种感官能力。 卧室里有什么物体,一眼辨认。 听到门铃响了,LLM便会告诉你家里来客人了。 大模型加持的NPC,在触摸桌子的香蕉后,...
-
每日一看大模型新闻(2023.11.20)OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御;谷歌Bard「破防」,用自然语言破解,提示注入引起数据泄漏风险;真正实现一步文生图,谷歌UFO
1.产品发布 1.1长虹:首个基于大模型的智慧家电AI平台 发布日期:2023.11.20 全球首个基于大模型智慧家电AI平台长虹云帆震撼发布! 主要内容:长虹智慧AI平台发布会上,发布了全球首个基于大模型的智慧家电AI平台——长虹云帆。据介绍...
-
stable diffusion为什么能用于文本到图像的生成
推荐基于稳定扩散(stable diffusion AI 模型开发的自动纹理工具: DreamTexture.js自动纹理化开发包 - NSDT 稳定扩散获得如此多关注的原因 如果你还没有看过它:稳定扩散是一个文本到图像的生成模型,你可以输入...
-
WidthFormer:实时自动驾驶!助力基于Transformer的BEV方案量产
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&行业理解 基于BEV的transformer方案今年量产的主要方案,transformer结构和CNN相比,特征提取能力更强,但需要较多的算力,这也是为什么许多车上都是1~2颗orin...
-
AI绘画与多模态原理解析:从CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM
前言 终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时...
-
苹果AIM自回归视觉模型验证性能与模型规模有关
苹果公司的研究者通过自回归图像模型(AIM)验证了视觉模型“参数越多性能越强”的规律,进一步证明随着容量或预训练数据量的增加,模型能不断提升性能。AIM能有效利用大量未经整理的图像数据,训练方法和稳定性与最近的大型语言模型(LLM 类似。这一观察结果与之前...
-
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种全新的基于提示学习的方法——DreamDistribution。 这种方法可以让任何基于文字提示的生成模型(比如文生图、文生3D等),通过一组参照图片来学习对应的视觉属性共性和变化的文本提示分布。...
-
AI图像着色工具DDColor 上色效果高度真实
DDColor是一款照片级、真实感的图像着色工具,采用了双解码器技术,能够同时考虑色彩分布和像素级详细信息,实现高度真实的图像上色效果。 它不仅能给历史黑白照片上色,还能对动漫或游戏中的风景进行真实风格的上色,并将动画场景转化为现实生活风格。 项目地址:...
-
AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到25公里
随手在网络上发布的一张照片,能暴露多少信息? 外国的一位博主@rainbolt就长年接受这种「照片游戏」的挑战,网友提供照片,他来猜测照片的具体拍摄地,有些照片甚至还能猜到具体的航班细节。 是不是细思极恐? 但「照片挑战」也同样抚慰了很多人心中的遗憾,...
-
【计算机视觉 | 目标检测】术语理解9:AIGC的理解,对比学习,解码器,Mask解码器,耦合蒸馏,半耦合,图像编码器和组合解码器的耦合优化
文章目录 一、AIGC的理解 二、对比学习 三、解码器 四、Mask解码器 五、耦合蒸馏 六、半耦合 七、图像编码器和组合解码器的耦合优化 一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...
-
使用 Stable Diffusion Img2Img 生成、放大、模糊和增强
在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器 Stable Diffusion...
-
AIGC系列之:CLIP和OpenCLIP
目录 模型背景 CLIP模型介绍 相关资料 原理和方法 Image Encoder Text Encoder 对比学习 预训练 Zero Shot预测 优势和劣势 总结 OpenClip模型介绍 相关资料 原理 结果 用法...
-
0微调搞定160个测试集!最强多模态分割一切大模型来了,架构参数全开源
用多模态大模型来做语义分割,效果有多好? 一张图+文字输入想分割的物体,大模型几秒钟就能识别并搞定! 只需输入想分割的对象如“擎天柱”,单个目标立刻就能被精准识别、快速切割: 多个物体也是手到擒来,像是指定天空、水、树、草、女孩、龙猫(Chinchil...
-
最强“全开源”多模态分割一切大模型APE
APE 是一种全开源的多模态分割模型,其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt,但 APE 通过对每个类别名或描述短语进行独立建模,可以学习到不同实例之间的差异。此外,APE 还通过压缩 W...
-
LLaMA Adapter和LLaMA Adapter V2
LLaMA Adapter论文地址: https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址: https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...
-
【InsCode Stable Diffusion 美图活动一期-关于梦里的那位古风美少女】如何快速拥有一位古风少女?一起来调试AI绘图,训练你自己的专属模型~
InsCode Stable Diffusion 美图活动一期-关于梦里的那位古风美少女 1️⃣ 工具介绍 2️⃣ 在线地址及使用教学 3️⃣ 我的模型及输出图片 3.1 模型版本及相关配置 3.2 图片生成提示词和反向提示词 3.3 种子...
-
GTA6预告片播放过亿,AI三巨头也能秒变GTA匪帮
GTA 新出的游戏预告片看了吗?据说,这个预告片已经破了三项吉尼斯世界纪录,观看次数已经破亿。 但如果告诉你,AI 三巨头也可以成为 GTA 里的人物,你还能认出他们吗? AI 三巨头:Yann LeCun、Geoffrey Hinton 和 Yos...
-
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下
想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。 今年以来,以 GPT-4 (V [1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型(Multi-modal Large Langu...
-
抖音跳舞不用真人出镜,一张照片就能生成高质量视频!字节新技术连抱抱脸CTO都下场体验了
看!现在正有四位小姐姐在你面前大秀热舞: 以为是某些主播在短视频平台发布的作品? No,No,No。 真实答案是:假的,生成的,而且还是只靠了一张图的那种! 真实的打开方式是这样的: 这就是来自新加坡国立大学和字节跳动最新的一项研究,名叫Magic...
-
【多模态】4、Chinese CLIP | 专为中文图文匹配设计
文章目录 一、背景 二、方法 2.1 基础内容 2.2 数据集 2.3 预训练方法 2.4 模型尺寸 三、效果 四、代码 4.1 推理 论文:Chinese CLIP: Contrastive Vision-Language Pr...
-
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一L...
-
研究人员使用特殊图像“毒害”人工智能
DALL-E、Midjourney和Stable Diffusion等人工智能生成艺术工具的兴起引发了激烈的辩论和争议。这些系统可以通过在互联网上收集的大量数据集上进行训练,简单地根据文本提示创建真实感图像和艺术。然而,这引发了人们对侵犯版权、滥用艺术家...
-
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
AI能理解搞笑视频笑点在哪里了。 北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。 值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但...
-
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点
AI能理解搞笑视频笑点在哪里了。 AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文...
-
清华光电计算新突破:芯片性能提升万倍,研究登顶Nature
随着各类大模型和深度神经网络的涌现,如何制造出满足人工智能发展、兼具大算力和高能效的下一代 AI 芯片,已成为国际前沿热点。 中国科协发布的 2023 重大科学问题中「如何实现低能耗人工智能」 被排在首位。 近日,清华大学团队在超高性能计算芯片领域取得新...
-
生成式人工智能如何重新定义图像搜索
译者 | 李睿 审校 | 重楼 近几个月来,生成式人工智能凭借其创造独特的文本、声音和图像的能力引起了人们的极大兴趣。但生成式人工智能的力量并不局限于创造新的数据。 生成式人工智能的底层技术(例如Transformer和扩散模型)可以为许多其他应用提供...