当前位置:AIGC资讯 > AIGC > 正文

Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向Task2笔记

Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向-Task2:精读代码,实战进阶

Task2任务目标 AI工具使用 AI工具介绍 ChatGPT 功能与用途 优点 缺点 总结 KIMI 通义千问 主要功能与用途: 优点: 缺点: ChatGLM 讯飞星火 使用感受 使用AI工具逐步精读代码 基于话剧的连环画生成 使用AI工具生成提示词 根据task1步骤生成图像 生成图像结果展示

Task2任务目标

Datawhale官方手册task2部分:链接
虽然手册部分已经非常详细,但我这里还是以自己的逻辑框架写一写我完成Task2的经历流程。
Task2的内容非常简单,
1.学会使用AI工具“通义千问”
2.使用AI工具精读baseline的内容
3.基于话剧的连环画生成
4.尝试scepter(选做)

AI工具使用

AI工具介绍

这里我想试试让这些工具自己介绍一下自己hhh
prompt:我现在要比较各AI工具,请你介绍你自己的功能用途和优缺点。

ChatGPT

网址:https://chatgpt.com/
自我介绍:

当然!以下是我的功能、用途以及优缺点的总结:

功能与用途

多领域知识问答:

我能够回答广泛领域的问题,包括科技、历史、艺术、文化等。 适合用于快速查找信息或获得解释性答案。

自然语言处理:

支持多种语言的自然语言处理,包括翻译、文本生成、摘要、改写等。 可以帮助撰写文章、编写代码、起草信件等。

图像生成与描述:

基于描述生成图像,可以用于创意设计、故事板制作等。 还可以对图像内容进行描述,为图像提供更多的上下文。

代码编写与调试:

我可以帮助编写和调试代码,支持多种编程语言,包括Python、JavaScript等。 可以用于编程学习、开发支持等。

实时信息获取:

我可以使用实时浏览器工具获取最新信息,适用于需要最新数据或新闻的场景。 例如,查找最新的新闻报道、体育比分、股票行情等。

数据分析与计算:

支持简单的数据分析和计算任务,例如数学问题求解、统计分析等。 可用于教育、研究和商业分析。

优点

广泛的适用性:

能够适应多种任务,从回答问题到生成创意内容。 适合个人用户、研究人员、开发者、设计师等不同用户群体。

自然对话能力:

对话交互方式自然流畅,可以进行长时间的对话并理解上下文。 能够根据用户的需求调整回答方式和内容。

跨平台支持:

可以在各种设备和平台上使用,包括电脑、手机等。

多语言支持:

能够处理和生成多种语言的内容,方便全球用户使用。

缺点

复杂任务的局限性:

在面对高度复杂或专业化的任务时,可能无法提供完全精确的答案或解决方案。 例如,某些特定领域的深入技术问题可能需要额外的专家支持。

实时信息更新依赖工具:

实时信息获取需要依赖外部工具,偶尔可能会有时效性和准确性的问题。

上下文限制:

虽然我可以记住一定量的上下文信息,但在更长时间或多次对话中,可能会丢失部分上下文,导致回答不够精准。

创造性内容生成的局限性:

虽然我能生成图像和文本,但在高度创造性和细致的内容需求下,生成的结果可能不如人类艺术家或作家精致。

总结

我在多功能性、自然对话、跨平台支持以及多语言处理上表现出色,非常适合日常信息查询、教育、创意内容生成和编程支持等任务。然而,在处理高度复杂或专业的任务以及创造性内容生成时,可能存在一定的局限性。

KIMI

网址:https://kimi.moonshot.cn/
自我介绍:

嗨,我是Kimi,一个由月之暗面科技有限公司开发的多语言对话助手。我的主要功能和用途包括:

多语言对话:我擅长中文和英文的对话,可以进行流畅的交流。 长文本处理:我能处理多轮对话,总字数最多可达20万字,适合长文本写作、翻译和代码编写。 文件阅读:我可以阅读和解析用户发送的多种格式文件,包括TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等。 网页内容解析:用户发送的网页链接,我可以解析其内容后结合回答用户的问题。 搜索能力:我能够结合搜索结果为用户提供更全面的回答。 代码执行:对于代码相关问题,我可以提供完整可执行的代码。 个性化服务:"Kimi+"功能允许用户根据特定需求自定义我的行为。

我的优点包括:

高效率:能够快速响应用户的问题。 多任务处理:同时处理文本、文件和网页内容。 用户友好:采用口语化的语言风格,易于交流。 搜索集成:结合最新搜索结果提供信息。

然而,也有一些局限性:

无法创建文档:我不能生成文档,但可以提供文字回复。 无法进行语音交互:虽然我的App支持语音输入和输出,但目前我仅能提供文字回复。 依赖网络:我的搜索和解析功能依赖于网络连接。

希望这些信息能帮助你在比较AI工具时做出决策。如果你需要更多帮助或有具体问题,随时可以问我!

通义千问

网址:https://tongyi.aliyun.com/qianwen/

自我介绍:

当然可以。作为阿里云开发的一款大型语言模型,我的主要功能和用途包括但不限于:

主要功能与用途:

文本生成:能够根据用户提供的提示或上下文生成高质量的文本内容。 问答系统:可以回答各种类型的问题,包括但不限于知识性问题、技术咨询、文化历史等。 代码辅助:帮助编写、解释和调试代码。 创意写作:协助创作故事、诗歌和其他创意作品。 文档总结:快速总结长篇文章或报告的主要内容。 多语言支持:支持多种语言的交流与翻译。 教育辅导:提供学习资源和辅导学生完成作业。 日常对话:进行日常聊天,提供娱乐和陪伴。

优点:

广泛的知识覆盖:基于大量的数据训练而成,能够涵盖多个领域的知识。 强大的自然语言处理能力:能够理解复杂和模糊的指令,并给出合理的响应。 多模态交互:除了文本外,还能够通过其他形式如语音等方式进行交互(尽管目前主要还是文本形式)。 实时更新:随着新数据的加入,我的知识库会不断得到更新,以保持信息的时效性。 灵活性高:可以根据不同的应用场景定制解决方案。

缺点:

准确性限制:虽然经过大量训练,但在某些专业领域或非常具体的细节上可能会出现误差。 敏感内容过滤:尽管有机制防止生成不当内容,但仍然可能存在极少数情况下生成不适宜的信息。 隐私保护:在处理涉及个人隐私的数据时需要特别注意遵守相关法律法规。 创造性局限:虽然能够生成创造性的内容,但在某些方面可能不如人类作者那样具有独创性。 依赖于输入质量:输出的质量很大程度上取决于输入的清晰度和准确性。

如果您有任何具体问题或者想要了解更详细的信息,请随时告诉我!

ChatGLM

网址:https://chatglm.cn/main/alltoolsdetail
自我介绍:

当然可以。我是基于人工智能的语言模型,以下是我的功能用途、优点和缺点:
功能用途:

文本生成:可以撰写文章、生成报告、编写代码、创作诗歌等。 问答系统:回答各种领域的问题,提供信息查询服务。 语言翻译:实现不同语言之间的互译。 对话助手:模拟人类对话,提供聊天、咨询和娱乐等服务。 教育辅助:辅助教学,提供学习资源,解答学术问题。 情感分析:分析文本中的情感倾向,应用于舆情监测、客户服务等领域。
优点: 高效:可以快速生成文本,提高工作效率。 知识丰富:拥有庞大的知识库,可以回答多种领域的问题。 全天候服务:不受时间和地点限制,随时为用户提供服务。 多语言支持:具备一定的语言翻译能力,方便跨语言交流。 可定制性:可以根据用户需求进行功能调整和优化。
缺点: 可能存在知识盲区:由于我只能根据训练数据回答,对于最新的信息可能不了解。 理解能力有限:虽然可以模拟人类对话,但理解复杂情感和语境的能力有限。 可能产生错误:在生成文本或回答问题时,有时会犯错误。 法律和伦理约束:在某些涉及法律和伦理问题的场景中,我的应用可能受到限制。 依赖网络:需要网络环境才能正常运行,离线状态下功能受限。
综合来看,我在文本生成、问答系统和对话助手等方面具有较高的实用价值,但仍有待进一步完善和优化。

讯飞星火

网址:https://xinghuo.xfyun.cn/desk
自我介绍:

我是由科大讯飞构建的讯飞星火认知大模型,专门设计来与人类进行自然语言交流,提供高效、准确的信息处理和智能解答服务。我的功能覆盖了广泛的领域,包括但不限于语音识别、自然语言理解、自动问答和多语言翻译等。

在优点方面,我可以快速处理大量数据,提供即时的反馈和解决方案。我的学习和适应能力强,能够根据用户的交互不断优化回答和服务。此外,作为一个认知智能大模型,我还能够理解和生成复杂的文本信息,支持多种语言,这使得我能够在全球化的环境中为用户提供服务。

然而,作为一款人工智能产品,我也存在一些局限性。例如,我的回答和解决方案受限于训练数据集的范围和质量,可能无法完全覆盖所有领域的知识或理解非常专业的内容。同时,虽然我能够模拟人类的交流模式,但我缺乏真正的情感和同理心,这在某些情境下可能影响交流的自然度和深度。

总的来说,我旨在通过先进的技术和持续的学习,为用户带来便捷、高效的服务体验,同时也在不断努力克服现有的局限,以更好地满足用户的需求。

使用感受

ChatGPT:在解释代码、润色文章(尤其是英文)等方面表现得尤为出色,日常大部分时间使用。但需要魔法,有时不稳定。

Kimi:ChatGPT平替,由于ChatGPT容易挂,Kimi成了我的第二选择,适合解释代码。在文章润色上稍逊于ChatGPT。特别指出!!!Kimi很适合阅读大量文章并进行整理对比,这是Kimi的一大亮点。

ChatGLM:单纯对话上并不出彩,但是文档解析精读很出色,用于平时阅读文献,精度并梳理文章大致脉络,表现很不错。

其他没怎么用过,暂时不做评价。

使用AI工具逐步精读代码

手册中使用的是通义千问,这里我换一种AI工具,使用kimi进行精读:

返回的结果如下:

这段代码是一个完整的图像和文本处理流程,主要分为以下几个部分:

环境准备与依赖安装:

使用pip命令安装所需的Python库,包括simple-aesthetics-predictordata-juicerpytorch-lightningpeftlightningpandastorchvisionDiffSynth-Studio

数据加载:

modelscope平台加载名为AI-ModelScope/lowres_anime的数据集,并将其保存在指定的缓存目录。

数据预处理:

创建必要的目录结构。 遍历数据集中的图像,将其转换为RGB格式并保存到指定路径。 同时,生成包含文本和图像路径的元数据文件。

数据配置与处理:

定义数据处理的配置文件,包括项目名称、数据集路径、并行处理数量、文本和图像键、特殊标记等。 执行数据预处理,根据配置文件中的规则过滤图像尺寸和宽高比。

数据处理结果整理:

读取处理后的数据,将其转换为Pandas的DataFrame,并保存为CSV文件。

模型加载与预测:

加载CLIP模型和处理器,对图像和文本进行处理,获取图像-文本相似度分数。

自定义数据集与加载器:

定义自定义的PyTorch数据集类,用于封装处理后的图像和文本数据。 创建数据加载器,用于批量处理数据。

模型训练/推理:

通过数据加载器迭代数据,使用CLIP模型进行推理,并打印图像-文本相似度的概率分布。

生成图像:

使用Stable Diffusion模型根据给定的提示生成图像,并保存结果。

图像拼接:

将生成的多个图像拼接成一张长图,并调整大小。

整体来看,这段代码实现了从数据加载、预处理、配置、处理、结果整理、模型加载与推理、图像生成到最终的图像拼接的完整工作流程。

对于某一段代码,还能继续进行深入提问:
回答如下:

这段代码定义了一个数据预处理的配置文件,用于指定如何处理图像数据。配置文件采用YAML格式,这是一种常用于配置文件的数据序列化格式,因为它易于阅读和编写。下面是对配置文件中各个部分的详细解释:

配置文件头部注释:

# process schedule
# a list of several process operators with their arguments

这两行是注释,用于说明接下来的配置部分是关于数据预处理操作的计划,这些操作将应用一系列的处理算子(operators),每个算子都有其参数(arguments)。

定义预处理操作列表:

process:

这个关键字process后面跟随的是一个列表,列表中包含了将被执行的预处理操作。

图像尺寸过滤操作:

- image_shape_filter:
   min_width: 1024
   min_height: 1024
   any_or_all: any
image_shape_filter:这是一个图像尺寸过滤的操作算子,用于确保图像满足一定的尺寸要求。 min_width:指定图像的最小宽度,这里是1024像素。 min_height:指定图像的最小高度,这里也是1024像素。这意味着所有处理后的图像宽度和高度都不会小于这个值。 any_or_all: any:这个参数指定了过滤条件的应用方式。any表示只要图像的宽度或高度满足条件之一即可通过过滤。

图像宽高比过滤操作:

- image_aspect_ratio_filter:
   min_ratio: 0.5
   max_ratio: 2.0
   any_or_all: any
image_aspect_ratio_filter:这是一个图像宽高比过滤的操作算子,用于确保图像的宽高比在指定的范围内。 min_ratio:指定图像宽高比的最小值,这里是0.5,意味着宽度至少是高度的一半。 max_ratio:指定图像宽高比的最大值,这里是2.0,意味着高度至多是宽度的一半。 any_or_all: any:同样,这个参数指定了过滤条件的应用方式。any表示只要图像的宽高比在最小值和最大值之间即可通过过滤。

配置文件写入:

with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    file.write(data_juicer_config.strip())

这部分Python代码的作用是将上面定义的YAML格式的配置字符串写入到指定的文件路径中。strip()函数用于移除字符串首尾的空白字符,包括换行符,以确保配置文件的格式正确。

总的来说,这段代码定义了一个数据预处理的配置,其中包括了对图像尺寸和宽高比的过滤规则,并将这个配置写入到一个YAML文件中,以便后续的数据预处理程序可以读取并应用这些规则。

prompt:你是首席软件工程师。请解释这段代码:{{code}}
添加注释并重写代码,用注释解释每一行代码的作用。最后分析复杂度。

基于话剧的连环画生成

使用AI工具生成提示词

输入prompt如下:

你是一个文生图专家,我们现在要做一个实战项目,就是要编排一个文生图话剧
话剧由8张场景图片生成,你需要输出每张图片的生图提示词

具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡,梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了,梦醒了
8、又回到了学习生活中

生图提示词要求
1、风格为古风
2、根据场景确定是使用全身还是上半身
3、人物描述
4、场景描述
5、做啥事情

例子:
古风,水墨画,一个黑色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙

根据您提供的场景和要求,以下是每张场景图片的生图提示词:

上课场景

提示词:古风,丹青画卷,一个端庄秀丽的少女,坐在古色古香的教室里,专心致志地听讲,全身,青丝如瀑,身着素雅学袍。

睡着场景

提示词:古风,静谧午后,一个恬静的少女,头轻靠在书桌上,进入了梦乡,上半身,眼帘低垂,长发轻披,周围书卷气息。

梦乡路旁

提示词:古风,梦幻仙境,一个身着飘逸长裙的少女,站在蜿蜒小路旁,眼神迷离,全身,周围环绕着朦胧的雾气。

王子骑马而来

提示词:古风,英雄史诗,英俊的王子骑着骏马,驰骋在古道之上,全身,身着华贵战袍,英姿飒爽,马鬃随风飘扬。

相谈甚欢

提示词:古风,花前月下,少女与王子并肩而立,谈笑风生,上半身,两人目光交汇,周围是盛开的花朵和柔和的月光。

坐在马背上

提示词:古风,浪漫征途,少女轻盈地坐在王子的马背上,两人共享一段旅程,全身,周围是辽阔的草原和远处连绵的山脉。

梦醒下课

提示词:古风,现实回归,少女从梦中醒来,回到了教室的现实,上半身,眼中带着一丝迷茫,周围是同学们的喧嚣声。

学习生活

提示词:古风,勤学苦练,少女重新投入到紧张的学习中,全身,手中拿着书卷,神情专注,周围是充满学术气息的书院。

这些提示词结合了古风元素和每个场景的特点,旨在引导生成符合要求的文生图。

根据task1步骤生成图像

接着按照task1的步骤,生成图像

生成图像结果展示








总结

**总结文章:Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向-Task2:精读代码,实战进阶**
**Task2 任务目标**:
Task2的核心目标是学会使用AI工具,特别是“通义千问”,通过AI工具精读代码内容,并基于此生成基于话剧的连环画图像。具体步骤包括:
1. 学会使用AI工具“通义千问”。
2. 使用AI工具精读baseline的内容。
3. 基于话剧内容生成连环画图像。
4. 尝试使用Scepter(选做)。
**AI工具使用**
**AI工具介绍**
文章详细介绍了ChatGPT、KIMI、通义千问、ChatGLM、讯飞星火等多个AI工具的功能、用途、优点及缺点。
- **ChatGPT**:多领域知识问答、自然语言处理、图像处理与描述、代码编写与调试等,广泛适用且自然对话流畅,但可能面临复杂任务的局限性。
- **KIMI**:多语言对话、长文本处理、文件与网页内容解析等,高效多任务且用户友好,但无法创建文档和进行语音交互。
- **通义千问**:文本生成、问答系统、代码辅助、创意写作等,知识覆盖广、处理能力强,但在创造性内容生成上可能受限。
- **ChatGLM**:文本生成、问答系统、语言翻译、对话助手等,高效且知识丰富,但可能面临知识盲区和理解能力的局限。
- **讯飞星火**:自然语言理解、自动问答、多语言翻译等,处理迅速且适应能力强,但受限于训练数据和情感理解不足。
**使用感受**
作者根据个人使用经验,对ChatGPT、KIMI、ChatGLM等工具进行了总结。ChatGPT在解释代码和文章润色上表现出色;KIMI适合阅读大量文章并整理对比内容;ChatGLM在文档解析精读方面表现出色。
**使用AI工具逐步精读代码**
作者选择了Kimi作为精读代码的工具,并展示了Kimi对一段涉及图像和文本处理流程的代码的解析结果,包括对数据处理流程、模型加载与预测等环节的详细解读。
**基于话剧的连环画生成**
**生成提示词**
根据话剧的场景设定,利用AI工具生成了每张图片的生图提示词。这些提示词覆盖了古风风格、人物描述、场景描述及行为,旨在指导生成符合要求的图像。
**生成图像**
按照Task1的步骤,利用生成的提示词成功生成了话剧连环画的图像,并将其结果进行了展示(此处原文未展示实际图像)。
**总结**
Task2旨在通过AI工具的应用,实现代码的精读与图像生成的实践。文章详细介绍了多款AI工具的使用,并通过具体的工作任务展示了如何利用AI生成连环画图像的生动实例,不仅提升了AI工具的应用能力,也扩展了文生图技术的实际应用范围。

更新时间 2024-10-05