当前位置:AIGC资讯 > AIGC > 正文

Datawhale AI夏令营第四期魔搭 AIGC task02

一、AI生图

1.1  AI生图技术

       AIGC(AI-Generated Content)是通过人工智能技术自动生成内容的生产方式,很早就有专家指出,AIGC将是未来人工智能的重点方向,也将改造相关行业和领域生产内容的方式。

      一般来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示(不管是文本还是图片还是任何)生成符合语义的图片。

      推翻“有图有真相”!!!

      警惕Deepfake技术!!!

      Deepfake:Deepfake是一种使用人工智能技术生成的伪造媒体,特别是视频和音频,它们看起来或听起来非常真实,但实际上是由计算机生成的。这种技术通常涉及到深度学习算法,特别是生成对抗网络(GANs),它们能够学习真实数据的特征,并生成新的、逼真的数据。虽然在多个领域展现出其创新潜力,但其滥用也带来了一系列严重的危害。在政治领域,Deepfake可能被用来制造假新闻或操纵舆论,影响选举结果和政治稳定。经济上,它可能破坏企业形象,引发市场恐慌,甚至操纵股市。法律体系也面临挑战,因为伪造的证据可能误导司法判断。此外,深度伪造技术还可能加剧身份盗窃的风险,成为恐怖分子的新工具,煽动暴力和社会动荡,威胁国家安全。

       了解AI生图有必要!!!

对于普通人来说,可以避免被常见的AI生图场景欺骗,偶尔也可以通过相关工具绘图

对于创作者来说,通过AI生图的工具可以快速提效,制作自己所需要的内容

对于技术人来说,了解AI生图的能力的玩法,可以更好地针对自己的业务进行开发和使用,甚至攻克难题开发更实用的工具

1.2  AI生图历史

      最早的AI生图可追溯到20世纪70年代,当时由艺术家哈罗德·科恩(Harold Cohen)发明AARON,可通过机械臂输出作画。

      现代的AI生图模型大多基于深度神经网络基础上训练,最早可追溯到2012年吴恩达训练出的能生成“猫脸”的模型。其使用卷积神经网络(CNN)训练,证明了深度学习模型能够学习到图像的复杂特征。

      2015年,谷歌推出了“深梦”(Deep Dream)图像生成工具,类似一个高级滤镜,可以基于给定的图片生成梦幻版图片

      2021 年 1 月 OpenAI 推出DALL-E模型(一个深度学习算法模型,是GPT-3 语言处理模型的一个衍生版本),能直接从文本提示“按需创造”风格多样的图形设计

      2022年8月,AI生图真正走进了大众的视野,让各个领域无法忽视。

1.3  AI生图难点和挑战

      AI容易翻车!

      充满AI味道!

二、AI生图前沿

2.1  数据集查找

AI生图自破圈以来,被科研界、业界广泛关注,且引发了各大厂商的模型之战,如我们这次学习活动所需要用到的Kolors(可图)模型(点击即可跳转魔搭模型介绍页),就是其中的一个产物。Kolors(可图)模型(点击即可跳转魔搭模型介绍页) 是快手开源的文本到图像生成模型,该模型具有对英语和汉语的深刻理解,并能够生成高质量、逼真的图像。

代码开源链接:https://github.com/Kwai-Kolors/Kolors

模型开源链接:https://modelscope.cn/models/Kwai-Kolors/Kolors

技术报告链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

魔搭研习社最佳实践说明:https://www.modelscope.cn/learn/575?pid=543

过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔搭社区还开源了专门的各种风格的可图优质咒语书(点击即可跳转),可以针对600+种不同风格,完善prompt,生成各种风格图片,可以在我们的学习当中使用。

三、读懂baseline代码

3.1  工具介绍---通义千问大语言模型

通义千问是具有信息查询、语言理解、文本创作等多能力的AI助手。

从其自我介绍可以看到,编程与技术支持能力是它的强项之一。

接下来我们把场景聚焦到编程与技术支持这个方向,让他详细介绍下自己可以如何帮助大家编程。

接受通义千问的邀请函!

3.2  精读baseline---从零入门AI生图

文生图代码的框架结构:

baseline中的所有代码见task01中的学习链接。

分析代码主体架构

3.2.1  输入的Prompt

          将代码输送给工具助手

3.2.2  返回的结果

返回结果会介绍代码的多个部分。

3.2.3  执行过程

向通义提问

通义 返回的结果

若对代码还存在疑问,可继续对AI进行追问

四、实战练习---基于话剧的连环画制作

4.1.数据准备

4.1.1  提示词

4.1.2  通义帮助

      自己在通义的返回的基础上,多多调整,争取打磨出一个最佳的提示词

4.1.3  最后的话剧场景

      结合AI内容,自己在AI结果上做一些调整,最终整理出来场景表格

4.2  执行Task01的Baseline

4.3  提示词修改

双击进入baseline文件

找到生成图像的板块

依次替换8张图片的正向提示词和反向提示词

4.4  结果展示

总结

### 文章总结
**AI生图技术综述与应用探讨**
**一、AI生图技术**
- **定义与前景**:AI生图,又称AIGC(AI-Generated Content),是未来人工智能的重要方向。它基于多模态机器学习模型,通过海量图像库和文本描述的深度学习,能够自动生成符合语义的图片。
- **Deepfake警示**:AI生图技术的滥用,尤其是Deepfake技术,生成高度逼真的虚假媒体,对政治、经济、法律及国家安全带来严重威胁。因此,了解AI生图至关重要。
- **应用场景**:对于普通人可避免欺诈,创作者可快速提效,技术人可利用AI生图技术开发更实用的工具。
**二、AI生图历史与发展**
- **早期探索**:上世纪70年代起,艺术家哈罗德·科恩使用机械臂作画,揭开AI生图的序幕。
- **现代进展**:随着深度学习技术的发展,AI生图模型不断涌现,如吴恩达的猫脸生成模型、谷歌的“深梦”、OpenAI的DALL-E等。
- **近期突破**:2022年,AI生图技术进入大众视野,广泛应用于各领域。
**三、AI生图前沿**
- **数据集与应用**:当前科研界和业界正围绕AI生图展开激烈竞争。Kolors(可图)作为快手开源的文本到图像生成模型,支持中文,具有广泛应用前景。
- **模型与工具**:提供了Kolors模型的开源链接、技术报告及学习最佳实践资源,助力深入研究与应用。
**四、实战操作**
- **工具介绍**:通义千问作为AI助手,具备编程与技术支持能力,可帮助编程与理解代码。
- **代码分析**:基于通义千问的指导,详细解读AI生图baseline代码,理解其输入、输出及执行过程。
- **实战练习**:以话剧连环画制作为例,通过准备提示词、调整AI结果并结合个人创意,完成从提示词到图像生成的完整过程。
- **结果展示**:展示通过AI生图技术制作的话剧连环画,验证技术的实用性与创意性。
综上所述,本文全面探讨了AI生图技术的定义、前景、历史、挑战及应用,并通过实战案例展示了其在艺术创作、技术支持等方面的广泛应用价值。

更新时间 2024-09-28