一、AI生图
1.1 AI生图技术
AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式,很早就有专家指出,AIGC将是未来人工智能的重点方向,也将改造相关行业和领域生产内容的方式。
一般来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。
推翻“有图有真相”!!!
警惕Deepfake技术!!!
Deepfake:Deepfake是一种使用人工智能技术生成的伪造媒体,特别是视频和音频,它们看起来或听起来非常真实,但实际上是由计算机生成的。这种技术通常涉及到深度学习算法,特别是生成对抗网络(GANs),它们能够学习真实数据的特征,并生成新的、逼真的数据。虽然在多个领域展现出其创新潜力,但其滥用也带来了一系列严重的危害。在政治领域,Deepfake可能被用来制造假新闻或操纵舆论,影响选举结果和政治稳定。经济上,它可能破坏企业形象,引发市场恐慌,甚至操纵股市。法律体系也面临挑战,因为伪造的证据可能误导司法判断。此外,深度伪造技术还可能加剧身份盗窃的风险,成为恐怖分子的新工具,煽动暴力和社会动荡,威胁国家安全。
了解AI生图有必要!!!
对于普通人来说,可以避免被常见的AI生图场景欺骗,偶尔也可以通过相关工具绘图
对于创作者来说,通过AI生图的工具可以快速提效,制作自己所需要的内容
对于技术人来说,了解AI生图的能力的玩法,可以更好地针对自己的业务进行开发和使用,甚至攻克难题开发更实用的工具
1.2 AI生图历史
最早的AI生图可追溯到20世纪70年代,当时由艺术家哈罗德·科恩(Harold Cohen)发明AARON,可通过机械臂输出作画。
现代的AI生图模型大多基于深度神经网络基础上训练,最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。其使用卷积神经网络(CNN)训练,证明了深度学习模型能够学习到图像的复杂特征。
2015年,谷歌推出了“深梦”(Deep Dream)图像生成工具,类似一个高级滤镜,可以基于给定的图片生成梦幻版图片
2021 年 1 月 OpenAI 推出DALL-E模型(一个深度学习算法模型,是GPT-3 语言处理模型的一个衍生版本),能直接从文本提示“按需创造”风格多样的图形设计
2022年8月,AI生图真正走进了大众的视野,让各个领域无法忽视。
1.3 AI生图难点和挑战
AI容易翻车!
充满AI味道!
二、AI生图前沿
2.1 数据集查找
AI生图自破圈以来,被科研界、业界广泛关注,且引发了各大厂商的模型之战,如我们这次学习活动所需要用到的Kolors(可图)模型(点击即可跳转魔搭模型介绍页),就是其中的一个产物。Kolors(可图)模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。
代码开源链接:https://github.com/Kwai-Kolors/Kolors
模型开源链接:https://modelscope.cn/models/Kwai-Kolors/Kolors
技术报告链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
魔搭研习社最佳实践说明:https://www.modelscope.cn/learn/575?pid=543
过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转),可以针对600+种不同风格,完善prompt,生成各种风格图片,可以在我们的学习当中使用。
三、读懂baseline代码
3.1 工具介绍---通义千问大语言模型
通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。
从其自我介绍可以看到,编程与技术支持能力是它的强项之一。
接下来我们把场景聚焦到编程与技术支持
这个方向,让他详细介绍下自己可以如何帮助大家编程。
接受通义千问的邀请函!
3.2 精读baseline---从零入门AI生图
文生图代码的框架结构:
baseline中的所有代码见task01中的学习链接。
分析代码主体架构
3.2.1 输入的Prompt
将代码输送给工具助手
3.2.2 返回的结果
返回结果会介绍代码的多个部分。
3.2.3 执行过程
向通义提问
通义 返回的结果
若对代码还存在疑问,可继续对AI进行追问
四、实战练习---基于话剧的连环画制作
4.1.数据准备
4.1.1 提示词
4.1.2 通义帮助
自己在通义的返回的基础上,多多调整,争取打磨出一个最佳的提示词
4.1.3 最后的话剧场景
结合AI内容,自己在AI结果上做一些调整,最终整理出来场景表格
4.2 执行Task01的Baseline
4.3 提示词修改
双击进入baseline文件
找到生成图像的板块
依次替换8张图片的正向提示词和反向提示词
4.4 结果展示
总结
### 文章总结**AI生图技术综述与应用探讨**
**一、AI生图技术**
- **定义与前景**:AI生图,又称AIGC(AI-Generated Content),是未来人工智能的重要方向。它基于多模态机器学习模型,通过海量图像库和文本描述的深度学习,能够自动生成符合语义的图片。
- **Deepfake警示**:AI生图技术的滥用,尤其是Deepfake技术,生成高度逼真的虚假媒体,对政治、经济、法律及国家安全带来严重威胁。因此,了解AI生图至关重要。
- **应用场景**:对于普通人可避免欺诈,创作者可快速提效,技术人可利用AI生图技术开发更实用的工具。
**二、AI生图历史与发展**
- **早期探索**:上世纪70年代起,艺术家哈罗德·科恩使用机械臂作画,揭开AI生图的序幕。
- **现代进展**:随着深度学习技术的发展,AI生图模型不断涌现,如吴恩达的猫脸生成模型、谷歌的“深梦”、OpenAI的DALL-E等。
- **近期突破**:2022年,AI生图技术进入大众视野,广泛应用于各领域。
**三、AI生图前沿**
- **数据集与应用**:当前科研界和业界正围绕AI生图展开激烈竞争。Kolors(可图)作为快手开源的文本到图像生成模型,支持中文,具有广泛应用前景。
- **模型与工具**:提供了Kolors模型的开源链接、技术报告及学习最佳实践资源,助力深入研究与应用。
**四、实战操作**
- **工具介绍**:通义千问作为AI助手,具备编程与技术支持能力,可帮助编程与理解代码。
- **代码分析**:基于通义千问的指导,详细解读AI生图baseline代码,理解其输入、输出及执行过程。
- **实战练习**:以话剧连环画制作为例,通过准备提示词、调整AI结果并结合个人创意,完成从提示词到图像生成的完整过程。
- **结果展示**:展示通过AI生图技术制作的话剧连环画,验证技术的实用性与创意性。
综上所述,本文全面探讨了AI生图技术的定义、前景、历史、挑战及应用,并通过实战案例展示了其在艺术创作、技术支持等方面的广泛应用价值。