整理一下最近了解到的AIGC工具

AIGC工具的一点整理

前言 AIGC类型图像生成类 Stable diffusion Midjourney DALL·E 2 三种工具比较 DeepFloyd IF 文本生成语音生成 So-vits-svc 4.0 结尾

前言

好久没有写csdn博客了，突然不知道写点什么，最近AIGC真的很火，有一种三天不看就跟不上发展趋势的感觉，让人又激动又有点慌?。这里我简单整理一下最近看到的AIGC的一些内容，后续如果有需要我详细描述一下如何使用。

AIGC类型

AIGC现在发展可以说是‘坐地日行八万里’了，总的来说我将目前技术较为成熟的AIGC工具大概分为三种类型，图像生成类，文本生成类，语音生成类，这三类目前均有不同程度的应用：

图像生成类 : Stable diffusion，Midjourney，DALL·E 2，DeepFloyd IF等；文本生成类：Chat GPT，auto-GPT，GPT-4等；语音生成类：So-vits-svc 4.0；
下面就每一类工具，我大概描述一下他们的功能及优势劣势的比较，如有大家有兴趣我会详细讲解。

图像生成类

Stable diffusion

Stable Diffusion是一个文本到图像的潜在扩散模型，由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。目前已有大神将SD打包为本地可直接使用的工具（绘世 sd-webui），通过这个工具我们可以通过网页可视化，便捷使用文生图，图生图。

这就是启动界面，只需要输入正向及反向prompt，调整类似图像大小，迭代步数等就可以生成各种不同类型的图像。同时还可以通过加载不同的lora及controlnet等模型来进行微调，生成自己需要的图案。

Midjourney

MidJourney 是一个文本到图像的在线服务AI，创始人是David Holz，它可以根据您的文本提示生成华丽的视觉效果。MidJourney 更喜欢用互补的颜色、光影的艺术运用、清晰的细节以及具有令人满意的对称性或透视性的构图来创建图像。

![在这里插入图片描述](https://img-blog.csdnimg.cn/155dbdd8918b4e669c1abcefd68d8b78.png
#pic_center)

DALL·E 2

DALL-E 2由OpenAI开发，它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型，能够解释自然语言输入并生成相应的图像。

三种工具比较

以上比较为个人观点，如有补充会进行修改。

DeepFloyd IF

这个是stability.ai/团队最新作品，据官方介绍，DeepFloyd IF 是最新最先进的开源文本-图像模型，拥有强大的语言理解能力，生成的图像具有高度真实感。从其官网展示了图像来看，DeepFloyd IF 生成的图像质量非常不错，也能处理多种不同的风格效果。能在图像中生成连贯清晰的文本，以及理解不同对象的属性和空间关系。比如它可以正确地将文字呈现在路牌、纸片、包装外壳等规定的媒介内；能理解文本之间的连续关系，将不同的字母或数字按顺序呈现在不同的物体上；以及分清圆球是金属的，三角形是毛茸茸的，不会将不同物体的属性弄混。

文本生成

文本生成领域现在chatgpt、autogpt和gpt4目前正在大热。目前针对chat gpt及gpt-4网络上已经有很多相关体验结果及解析，这里对三个gpt模型进行一下对比。
chat GPT和GPT-4均为OpenAI公司开发的自然语言处理模型，gpt4和chatgpt的区别在于gpt4可以处理图像内容，可以更正确的理解信息和处理问题，且回复的准确性提高不少；chatgpt不支持图像内容处理，有时还会出现错误或者矛盾的回答。此外，GPT-4支持图文语义化的解读，以及更好的回答组织能力，而chatgpt则带来了AI对语义理解的突破。
Auto-GPT 的运作方式与 ChatGPT 相同，但增加了运动功能。它将大型语言模型指令链接在一起，以实现指定的结果。该工具具有一定的决策权，可以让AI自我提示。

语音生成

So-vits-svc 4.0

B站大佬已经将该算法工具化，类似于sd-webui，通过可视化就可以完成语音训练及推理。

具体效果大家可以看B站很多AI翻唱，很让人惊艳，后续我会将各个工具的具体用法进行介绍。

结尾

以上是我的一点总结，目前AIGC工具及算法日新月异，发展很快，我总结的一些东西在我下笔的那一刻可能就已经过时了。学无止尽，能亲身经历人工智能的发展，真的是幸事。另外，给自己打个广告，有没有做这个的一起玩儿啊?。

下面是一些工具链接
Stable diffusion，Midjourney，DALL·E 2，DeepFloyd IF等；
2. 文本生成类：Chat GPT，auto-GPT，GPT-4等；
3. 语音生成类：So-vits-svc 4.0；
[1]: sd-webui ：https://github.com/AUTOMATIC1111/stable-diffusion-webui
[2]: Midjourney：https://www.midjourney.com/home/
[3]: DALL·E 2：https://labs.openai.com/
[4]:DeepFloyd IF：https://deepfloyd.ai/deepfloyd-if
[5]:Chat GPT：https://chat.openai.com/
[6]:auto-GPT：https://github.com/Significant-Gravitas/Auto-GPT
[7]:GPT-4：https://openai.com/product/gpt-4
[8]: So-vits-svc 4.0：https://github.com/voicepaw/so-vits-svc-fork/blob/main/README_zh_CN.md