当前位置:AIGC资讯 > AIGC > 正文

Datewhale×魔搭 AI夏令营第四期 AIGC方向Task2笔记

 现在并不是一个”有图有真相“的时代

需要我们去辨明真伪,提高自身的警惕性(例如Deepfake技术)

AI生图的历史

1.20C70s,艺术家哈罗德·科恩发明AARON,可以通过机械臂输出作画

2.2012年吴恩达训练出能生成”猫脸“的模型,使用卷积神经网络(CNN)训练,证明了深度学习模型能够学习到图像的复杂特征

3.2015年,谷歌推出了“深梦”(Deep Dream)图像生成工具,类似一个高级滤镜,可以基于给定的图片生成梦幻般的图片

4.2021年1月OpenAI推出DALL-E模型(一个深度学习算法模型,是GPT-3语言处理模型的一个衍生版本),能直接从文本提示”按需创造“风格多样的图形设计

AI生图的基本原理

AI生图模型获得图片生成能力只要是通过学习图片描述以及图片特征,尝试将这二者进行一一对应,存储在自己的记忆里。在我们需要的时候,通过输入的文字,复现出来对应的图片特征,从而生成了我们需要的图片。

实操部分过程、问题与感想

~~本期AI助手——通问千义(网址:https://tongyi.aliyun.com/qianwen/?spm=5176.2810346&code=lapnbfugti&utm_content=se_1018354711&st=null&sessionId=05d8665557ff418086e7029e87d5b0e8)

助手介绍:具有信息查询、语言理解、文本创作等多功能的AI助手。编程与技术支持能力是其强项之一。

1.文生图代码的框架结构

2.向通问千义提出的问题与回答

可以看出通问千义的效率很高,并且问题分析的十分详细,可以利用其来助力平时的工作、学习方面(P.S:当然是要正向使用!)

3.运用通义千问进行连环画制作

通义的回答:

结合通义的生成内容进行调整,最终整理出来的表格 (仅供大家参考~)

.

图片编号 场景描述 正向提示词 反向提示词 图片1 古风课堂专注 古风,工笔画,一个身穿新中式上衣的少女,坐在木制桌前,手握毛笔,认真书写,上半身,黑色长发,扎高马尾,紫色丝质上衣,背景是竹简和古籍 丑陋,变形,嘈杂,模糊,低对比度,多余的手指 图片2 课堂小憩 古风,淡雅水彩,一个黑色扎高马尾的少女,身穿紫色淡雅新中式长裙,头枕手臂,侧卧在书卷旁,表情安详,上半身以及手臂,背景是安静的学堂,周围有其他同学若隐若现的身影,她已悄然入睡 丑陋,变形,嘈杂,模糊,低对比度 图片3 梦中路旁 古风,写意山水,少女立于青石古道旁,身着淡绿色汉服,长发随风飘逸,全身,手中轻握折扇,折扇上的图案是水墨梅花,四周环绕着竹林、溪水和远处的山峦,她在梦境中等待未知的相遇 丑陋,变形,嘈杂,模糊,低对比度 图片4 少年将军来临 古风,浓墨重彩,一位英俊的少年将军,骑着一匹棕色的骏马缓缓而来,马蹄踏过青石古道,少年将军身穿金色镶边的战袍,全身,背景是古桥流水人家,少女静静地站在古道旁,二人目光相遇,心有所感,近大远小 丑陋,变形,嘈杂,模糊,低对比度 图片5 月下交谈 古风,细腻工笔,少女于少年将军相对而坐,身边放着琉璃茶具,两人眼神交流,表情温和,全身,背景是月光下的古亭,地面上投影出二人的影子,四周有花朵和树木,他们正在月下畅谈 丑陋,变形,嘈杂,模糊,低对比度 图片6 共骑出游 古风,流畅线条,细腻工笔,少女与少年将军同骑一匹棕色骏马,少女身着浅绿色汉服长裙,少年将军身着银色铠甲,两人并肩而行,全身,背景是开阔的草原与远山,他们享受着同行的快乐,两人脸上洋溢笑容 丑陋,变形,嘈杂,模糊,低对比度 图片7 梦醒时刻 古风,淡墨勾勒,少女猛然睁开眼睛,手按胸口,上半身,背景是熟悉的学堂,周围是同学们忙碌的身影,她意识到自己刚刚经历了一场梦境。 丑陋,变形,嘈杂,模糊,低对比度 图片8 重回现世 古风,细致描绘,少女坐在学堂里,手捧书卷,认真阅读,上半身,身穿新中式上衣,背景是书架和窗户外的竹林,她已经完全融入了学习的氛围,继续她的学术追求 丑陋,变形,嘈杂,模糊,低对比度

4.接下来就是用baseline生成图片啦,以及一些反思思考

baseline好像对”新中式“这样比较流行的词汇也有些陌生,生成的风格和现实有一些出入

baseline训练的模型好像并不能够过于准确的理解”洋溢笑容“这样的描述词,这张图片额脸部很怪异,后期调整需要规避掉这样的字眼

本期的学习就是这样~

总结

**文章总结:《不再是“有图有真相”的时代——AI图像生成的探索与实践》**
随着技术的发展,我们已进入一个信息复杂多样的时代,其中AI图像生成技术尤为突出,挑战了“有图有真相”的传统观念。文章首先阐述了当前时代背景下,我们需要增强对图像真伪的辨识能力,特别是面对如Deepfake等高级图像篡改技术时。
接下来,文章追溯了AI生图的历史发展脉络,从上世纪70年代艺术家哈罗德·科恩的AARON机械臂作画,到2012年吴恩达利用CNN生成“猫脸”模型,再到2015年谷歌推出的“深梦”(Deep Dream)工具,直至2021年OpenAI推出的DALL-E模型,展示了AI图像生成技术从概念到成熟的演进过程。
AI生图的基本原理在于通过学习大量图片的描述与特征,建立二者之间的对应关系并存储,以实现在输入特定文字描述时,能够自动生成相应特征的图像。
在实操部分,文章介绍了使用通问千义AI助手进行文生图操作的过程,展示了从代码框架构建、问题提问到实际生成连环画的具体步骤。通过设定正向和反向提示词,AI助手成功生成了一系列精致的古风场景图片,体现了AI在图像创作领域的广泛应用潜力。
然而,实操过程中也遇到了一些问题,如baseline模型对某些现代词汇的理解不足、对情绪表达如“洋溢笑容”的刻画不准确等。这些挑战提醒我们,在享受AI带来便利的同时,也需要关注其局限性并进行相应的调整和完善。
综上所述,文章不仅揭示了AI图像生成技术的快速发展及其对社会的影响,还通过实际操作展示了其应用过程与存在的挑战,呼吁我们在享受技术带来的好处的同时,提高警惕性并不断探索与改进。

更新时间 2024-09-21