-
AI绘画Stable DIffusion教程 | 如何利用 Stable Diffusion webui 将图片变得更清晰?全方位对比4种放大方法!
大家好,我是程序员晓晓 1、引言 “高分放大”(有时候也叫“超分放大”或“高清修复”)描述了在确保图像清晰度的前提下提升图片分辨率的过程。例如,将一张512 x 512的图片放大四倍,得到的就是2048 x 2048分辨率的图片,这个过程不仅放大了图...
-
快手发布视频生成大模型「可灵」:已开放邀测 效果对标Sora
近日,快手发布了一款名为「可灵」的视频生成大模型,该模型效果对标了之前发布的 Sora,同时已在快手旗下的快影 App 开放邀测体验。 可灵大模型具有多项优势,包括能够生成大幅度的合理运动、模拟物理世界特性、具备强大的概念组合能力和想象力,以及支持高分辨率...
-
Stable Diffusion【应用篇】【艺术写真】:最近很火的黏土风,整合AI艺术写真效果还真不错
在五一期间,在某书上,“粘土特效”、“粘土滤镜”异常爆火,被网友们玩出了花。 恰好最近也一直在研究AI艺术写真,断断续续也写了几篇文章,看着黏土特效的火爆,我也跟风来体验一下在AI写真方面的应用。话不多说,我们直接开整。 一.黏土SDXL大模型+Inst...
-
改进的检测算法:用于高分辨率光学遥感图像目标检测
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 01 前景概要 目前,难以在检测效率和检测效果之间获得适当的平衡。我们就研究出了一种用于高分辨率光学遥感图像中目标检测的增强YOLOv5算法,利用多层特征金字塔、多检测头策略和混合注意力模块来提高...
-
Stable Diffusion 入门实操篇
一、了解 SD 与哩布哩布 1. SD简介 SD全称为 Stable Diffusion,与 Midjourney(MJ)一样,也是一款AI绘画软件,SD 的核心原理是潜在扩散模型(LDM),通过该技术,SD能够将原始图像转化为噪声图像,然后逐渐去...
-
〔003〕Stable Diffusion 之 界面参数和基础使用 篇_stable diffusion 参数设置
✨ 目录 ▷ 界面参数 ▷ 采样器 ▷ 文生图(txt2img) ▷ 图生图(img2img) ▷ 标签权重 ▷ 模型下载 ▷ 界面参数 在使用 Stable Diffusion 开源 AI 绘画之前,需要了解一下绘画的界面...
-
ai绘画软件哪个好用?轻松开启艺术创作新时代
在这个数字化飞速发展的时代,艺术创作也迎来了科技的春风。 你是否在创作时遇到过技巧瓶颈,或是灵感枯竭的困境?或许,你曾因为工具限制而无法完美呈现心中的画面? 这时候,AI绘画软件就能大显身手了。它们不仅能够帮你克服技术难题,还能激发你的创意潜能,让...
-
港科大最新!Vista:一种具有高保真度和多功能可控的世界模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability 论文链接...
-
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争...
-
每日AIGC最新进展(7):频域引导的超分扩散模型、同时生成自然的说话面孔和语音输出Text-to-Speaking Face、4D全景场景图生成、语义感知的协同语音手势合成
Diffusion Models专栏文章汇总:入门与实战 Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution http://arxiv.org/abs...
-
2024年最新AI绘画普及课【二】文生图入门_平铺 分块 (tiling)
正面提示词: (1girl:2.0 , solo, nilou \(genshin impact\ , solo, long hair, jewelry, blue gemstone, earrings, horns, crown, cyan satin...
-
AI绘画Stable Diffusion画全身图总是人脸扭曲?ADetailer插件实现一键解决!
大家好,我是程序员晓晓 你是否遇到过SD生成的人物脸部扭曲、甚至令人恶心的情况?也曾感到束手无策?别担心,这份教程专为你而来。 在使用SD生成人物全身照时,你可能经常发现人物的脸部会出现扭曲问题。这是因为人物面部像素占比过少,导致无法充分还原面部信息。...
-
AI绘画动漫转真人详细教程
从小到大,我们看过的动漫、玩过的游戏有很多很多 但我们会发现里面的角色或者人物都是二次元的 我就会好奇这些动漫人物在现实中会长什么样 而现在,我们通过AI绘画竟然就能还原出来他们现实中的样子 除了动漫角色和游戏人物,古代的画像、经典...
-
【Stable Diffusion】脸部修复插件After Detailer
在Stable Diffusion中,为了增加抽卡效率,通常我们设置的初始分辨率都是512x512。这样的好处就是渲染速度快,但是人脸基本上都会崩。 比如像这样。 当然,在我们确定好人物姿态和构图之后,点击面部修复和高分辨率修复,是可以达到正常效果...
-
Midjourney指南 - 生成高分辨率图片(内容已更新至V5)
Midjourney 首先为每个作业生成一个低分辨率图片网格(2x2 。你可以在选择其中任一图片,使用 Midjourney upscaler 来增加尺寸并添加更多细节。有多种可用于放大图像的放大模型。 每个图像网格下方的按钮用于放大所选图像。U1 ...
-
Stable Diffusion AI绘画:从创意词汇到艺术图画的魔法之旅
文章目录 一、Stable Diffusion的工作原理 二、从提示词到模型出图的过程 三、Stable Diffusion在艺术创作中的应用 《Stable Diffusion AI绘画从提示词到模型出图》 内容简介 作者简介 楚天 目录...
-
通俗易懂的Stable Diffusion模型结构介绍
目录 SD的发展历程 SD 模型的网络结构 ClipText 文本编码器 文本向量输入Unet VAE模型 总结图 SD的发展历程 Stab...
-
拒绝低质量!一个技巧,搞定Stable Diffusion高清图片生成
生成高清图片看起来是一件很简单的事情,似乎我们只要给AI设定一个足够高的分辨率,要求就能够达到。 但实际的操作,比我们设想复杂一些。会涉及到一些技术的问题,需要了解背后的逻辑,然后按照用AI绘图的逻辑来解决。 1. Mj与SD在生成高清图片上的差别...
-
ai绘画生成软件有哪些?轻松实现从简单到复杂的图片创作需求
现如今,AI技术的融入为创作者提供了前所未有的便利和可能性。短短几年间,从简单的图案生成到复杂的场景构建,AI绘图工具已经能够协助艺术家们解决各种绘画难题。 但是,我们常常会遇到一些问题:如何在保持个人风格的同时,提高作品的专业度?如何在时间紧迫的情...
-
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态...
-
Stable Diffusion常用提示词(Prompt)
视图相关提示词 正面视角:from front, front view 俯视角度:from above, high angle, birds-eye view 顶视图:top view 仰视角度:from below, low angle, up...
-
2024年大数据最全AI绘画普及课【二】文生图入门_平铺 分块 (tiling)(3),2024年最新稳进大厂
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。 需要这份系统化资料的朋友,可以戳这里获取 一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的...
-
你想要的照片,AI都能帮你画出来:记录Stable Diffusion的力量
目录 前言 一、配置软件环境(可以跳过直接看第二部分效果图) 1.启动界面 二、解锁新功能 2.1 开源模型的获取 三、如何生成细节更加可控的内容呢? 3.1 充分利用prompt: 3.2 词不达意时,充分使用lora 3.2 使用多个lo...
-
全网最全stable diffusion webui API调用示例,包含controlneth和segment anything的API(附json示例)
全网最全stable diffusion webui API调用示例,包含controlneth和segment anything的API(附json示例) 交流群 100419879 欢迎合作👏🏻 V : 864399407 GitHub:https...
-
基于分层自监督学习将视觉Transformer扩展到千兆像素图像
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 Vision Transformers (ViT 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。 1 概括 对于计算病...
-
Stable Diffusion最美亚洲女性真人大模型之一【XXMix_9realistic】已升级SDXL版~
大家好,我是程序员晓晓 如果你用过XXMix_9realistic4.0的模型你就会觉得他确实是个不错的大模型,虽然是基于SD1.5的,但效果很不错。 进入SDXL时代,经过作者不断地迭代更新,也已经正式向大家推出了SDXL版本。 XMix_9r...
-
HuggingFace教你怎样做出SOTA视觉模型
前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。 其他从业者在震撼之余,也再次开始思考怎么追赶这些超级模型了。 刚好在这时,HuggingFace和法国索邦大学的一篇论文,总结出了构建视觉大模型的关键经验,给开发者指明了一...
-
DenserRadar:基于密集LiDAR点云的4D毫米波雷达点云检测器
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DenserRadar: A 4D millimeter-wave radar point cloud detector based on dense LiDAR point clouds 论...
-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
最详细人脑3D地图登Science!GPT-4参数只相当于人类0.2%
芝麻粒大小的人脑组织,突触规模就相当于一个GPT-4! 谷歌与哈佛联手,对局部人脑进行了纳米级建模,论文已登Science。 这是迄今为止最大、最详细的人脑复制品,首次展示出了大脑中的突触连接网络。 凭借超高分辨率,这个名为H01的重建,已经揭示了一些...
-
智谱AI研发国产文生视频模型对标Sora 最快年内发布
据钛媒体报道,智谱 AI 正在研发对标 OpenAI Sora 的高质量文生视频模型,预计最快年内发布。 该公司是国内一家估值过200亿的 AI 大模型独角兽公司,成立于2019年,由清华大学计算机系的技术成转化而来。智谱 AI 已推出多个大模型产品,包括...
-
看透物体的3D表示和生成模型:NUS团队提出X-Ray
项目主页:https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html 论文地址:https://arxiv.org/abs/2404.14329 代码地址:https://github.com...
-
超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文介绍了一种用于3D目标检测和多目标跟踪的相机-毫米波雷达融合方法(CR3DT)。基于激光雷达的方法已经为这一领域奠定了一个高标准,但是其高算力、高成本的缺陷制约了...
-
虚拟人聊天系统Live2D 利用ChatGPT+对口型打造你自己的AI女友
这是一个基于 Unity 开发的 Live2D 虚拟人聊天系统项目。通过 Live2D 技术,项目展现了一个动态的虚拟人形象,让二维图像在屏幕上以近乎三维的形式呈现,提供流畅的动画效果,增强用户交互体验。 虚拟人可以与用户进行实时的文本交流,利用 API...
-
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。 上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。 相比于其他多模...
-
CVPR 2024 | 巨幅提升24%!LiDAR4D会是LiDAR重建的答案么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了成功,但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline,但忽略了激光雷达...
-
雨云GPU云服务器搭建SD(Stable Diffusion)的教程,搭建自己的AI绘画网站,AIGC
Stable Diffusion是什么 Stable Diffusion是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,由CompVis、Stability AI和LAION的研究人员和工程师共同创建。...
-
AIGC实战——StyleGAN(Style-Based Generative Adversarial Network)
AIGC实战——StyleGAN 0. 前言 1. StyleGAN 1.1 映射网络 1.2 合成网络 1.3 自适应实例归一化层 1.4 风格混合 1.5 随机变化 2. StyleGAN 生成样本 3. StyleGAN2 3.1...
-
【从零开始AI绘画2】StableDiffusionWebUI的基础使用
StableDiffusionWebUI的基础使用 第一章中已经完成了SDwebui的部署已经初始化,接下来我们开始基础使用,涉及更细节高级的功能本文暂时不写 文章目录 StableDiffusionWebUI的基础使用 界面简介...
-
AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)
AIGC实战——ProGAN 0. 前言 1. ProGAN 2. 渐进式训练 3. 其他技术 3.1 小批标准差 3.2 均等学习率 3.3 逐像素归一化 4. 图像生成 小结 系列链接 0. 前言 我们已经学习了使用生成对...
-
FouriScale官网体验入口 高分辨率图像AI生成工具使用方法教程指南
FouriScale是一款可以从预训练的扩散模型生成高分辨率图像的工具。它通过创新的、无需训练的方法,结合膨胀技术和低通操作的方法,成功实现了灵活处理各种宽高比文本到图像生成。使用FouriScale作为指导,这个工具成功平衡了生成图像的结构完整性和保真度...
-
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
近期,扩散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图像的惊人能力。通常,这些模型在特定分辨率下进行训练,以确...
-
ai绘画软件哪个好用?开启艺术创作新时代
艺术创作总是充满挑战,但有时候,灵感就像顽皮的小猫,躲起来不让你找到。 你是否曾在画布前苦思冥想,却始终无法捕捉到心中那完美的画面?或者,技术限制让你的创意无法充分展现? 这时候,大家可以尝试一下AI绘画软件,它们就像是一位神奇的助手,能够帮你突破这些...
-
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先...
-
AI绘画24年最新的Stable Diffusion整合包安装教程,建议收藏!
1、背景信息 ▍Stable Diffusion 是什么? Stable Diffusion(简称SD)是一种生成式人工智能,于2022年发布,主要用于根据文本描述生成详细图像,也可用于其他任务,如图像的修补、扩展和通过文本提示指导图像到图像的...
-
文生图大模型三部曲:DDPM、LDM、SD 详细讲解!
1、引言 跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等 之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有: 文生图大模型:如 Stable Diffusion系列、DALL-E系列、Imagen等 图文匹配大模型:如CLI...
-
AI绘画 | 如何利用SD垫图实现照片风格转换
“ 小红书上有很多用AI做卡通头像的,大概思路是你拍一张个人照片发给博主,博主利用midjourney的垫图功能转换成卡通形象,一张收取一定费用……” 看过之前文章的人都应该知道,midjourney是付费的软件,而且需要一定魔法上网能力。 今天给大家...
-
秋叶大佬24年最新的Stable Diffusion整合包V4.6.7来了~
! 「 无套路!文末提供下载方式 」 要说今年绘画圈最大的新秀 那妥妥的就Stable Diffution V4升级版无需安装**,直接解压就能用 (在此要感谢秋葉aaaki大佬的分享!) 比之前推送的更加智能、快速和简单 有多简单呢?这么说...
-
阿里7B多模态文档理解大模型拿下新SOTA
多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为M...
-
Mini-Gemini:简单有效的AI框架,增强多模态视觉语言模型
近期,中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架,通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术,结合一个特别策划的高质量数据...