Datawhale AI夏令营第四期魔搭 AIGC task02

一、AI生图

1.1 AI生图技术

AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式，很早就有专家指出，AIGC将是未来人工智能的重点方向，也将改造相关行业和领域生产内容的方式。

一般来说，AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

推翻“有图有真相”！！！

警惕Deepfake技术！！！

Deepfake:Deepfake是一种使用人工智能技术生成的伪造媒体，特别是视频和音频，它们看起来或听起来非常真实，但实际上是由计算机生成的。这种技术通常涉及到深度学习算法，特别是生成对抗网络（GANs），它们能够学习真实数据的特征，并生成新的、逼真的数据。虽然在多个领域展现出其创新潜力，但其滥用也带来了一系列严重的危害。在政治领域，Deepfake可能被用来制造假新闻或操纵舆论，影响选举结果和政治稳定。经济上，它可能破坏企业形象，引发市场恐慌，甚至操纵股市。法律体系也面临挑战，因为伪造的证据可能误导司法判断。此外，深度伪造技术还可能加剧身份盗窃的风险，成为恐怖分子的新工具，煽动暴力和社会动荡，威胁国家安全。

了解AI生图有必要！！！

对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图

对于创作者来说，通过AI生图的工具可以快速提效，制作自己所需要的内容

对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具

1.2 AI生图历史

最早的AI生图可追溯到20世纪70年代，当时由艺术家哈罗德·科恩（Harold Cohen）发明AARON，可通过机械臂输出作画。

现代的AI生图模型大多基于深度神经网络基础上训练，最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。其使用卷积神经网络（CNN）训练，证明了深度学习模型能够学习到图像的复杂特征。

2015年，谷歌推出了“深梦”（Deep Dream）图像生成工具，类似一个高级滤镜，可以基于给定的图片生成梦幻版图片

2021 年 1 月 OpenAI 推出DALL-E模型（一个深度学习算法模型，是GPT-3 语言处理模型的一个衍生版本），能直接从文本提示“按需创造”风格多样的图形设计

2022年8月，AI生图真正走进了大众的视野，让各个领域无法忽视。

1.3 AI生图难点和挑战

AI容易翻车！

充满AI味道！

二、AI生图前沿

2.1 数据集查找

AI生图自破圈以来，被科研界、业界广泛关注，且引发了各大厂商的模型之战，如我们这次学习活动所需要用到的Kolors（可图）模型(点击即可跳转魔搭模型介绍页)，就是其中的一个产物。Kolors（可图）模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型，该模型具有对英语和汉语的深刻理解，并能够生成高质量、逼真的图像。

代码开源链接：https://github.com/Kwai-Kolors/Kolors

模型开源链接：https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明：https://www.modelscope.cn/learn/575?pid=543

过去文生图主要以 SD 系列基础模型为主，仅支持英文的prompt，但可图是支持中文的文生图模型，文生图的prompt格式较为固定，魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转)，可以针对600+种不同风格，完善prompt，生成各种风格图片，可以在我们的学习当中使用。

三、读懂baseline代码

3.1 工具介绍---通义千问大语言模型

通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。

从其自我介绍可以看到，编程与技术支持能力是它的强项之一。

接下来我们把场景聚焦到编程与技术支持这个方向，让他详细介绍下自己可以如何帮助大家编程。

接受通义千问的邀请函！

3.2 精读baseline---从零入门AI生图

文生图代码的框架结构：

baseline中的所有代码见task01中的学习链接。

分析代码主体架构

3.2.1 输入的Prompt

将代码输送给工具助手

3.2.2 返回的结果

返回结果会介绍代码的多个部分。

3.2.3 执行过程

向通义提问

通义返回的结果

若对代码还存在疑问，可继续对AI进行追问

四、实战练习---基于话剧的连环画制作

4.1.数据准备

4.1.1 提示词

4.1.2 通义帮助

自己在通义的返回的基础上，多多调整，争取打磨出一个最佳的提示词

4.1.3 最后的话剧场景

结合AI内容，自己在AI结果上做一些调整，最终整理出来场景表格

4.2 执行Task01的Baseline

4.3 提示词修改

双击进入baseline文件

找到生成图像的板块

依次替换8张图片的正向提示词和反向提示词

4.4 结果展示

总结

### 文章总结
**AI生图技术综述与应用探讨**
**一、AI生图技术**
- **定义与前景**：AI生图，又称AIGC（AI-Generated Content），是未来人工智能的重要方向。它基于多模态机器学习模型，通过海量图像库和文本描述的深度学习，能够自动生成符合语义的图片。
- **Deepfake警示**：AI生图技术的滥用，尤其是Deepfake技术，生成高度逼真的虚假媒体，对政治、经济、法律及国家安全带来严重威胁。因此，了解AI生图至关重要。
- **应用场景**：对于普通人可避免欺诈，创作者可快速提效，技术人可利用AI生图技术开发更实用的工具。
**二、AI生图历史与发展**
- **早期探索**：上世纪70年代起，艺术家哈罗德·科恩使用机械臂作画，揭开AI生图的序幕。
- **现代进展**：随着深度学习技术的发展，AI生图模型不断涌现，如吴恩达的猫脸生成模型、谷歌的“深梦”、OpenAI的DALL-E等。
- **近期突破**：2022年，AI生图技术进入大众视野，广泛应用于各领域。
**三、AI生图前沿**
- **数据集与应用**：当前科研界和业界正围绕AI生图展开激烈竞争。Kolors（可图）作为快手开源的文本到图像生成模型，支持中文，具有广泛应用前景。
- **模型与工具**：提供了Kolors模型的开源链接、技术报告及学习最佳实践资源，助力深入研究与应用。
**四、实战操作**
- **工具介绍**：通义千问作为AI助手，具备编程与技术支持能力，可帮助编程与理解代码。
- **代码分析**：基于通义千问的指导，详细解读AI生图baseline代码，理解其输入、输出及执行过程。
- **实战练习**：以话剧连环画制作为例，通过准备提示词、调整AI结果并结合个人创意，完成从提示词到图像生成的完整过程。
- **结果展示**：展示通过AI生图技术制作的话剧连环画，验证技术的实用性与创意性。
综上所述，本文全面探讨了AI生图技术的定义、前景、历史、挑战及应用，并通过实战案例展示了其在艺术创作、技术支持等方面的广泛应用价值。

kol 提示词深度学习图像生成人工智能技术支持文生图 prompt 神经网络生成模型 aigc 广泛应用文本到图像 git 文本到图像生成智能技术 ai助手 dall-e github 最佳实践