碎碎念:之前了解AIGC都是碎片化的从抖音、小红书、知乎这些平台上随机学到的,但说实话跟没看过一样,了解到的太过表面,而且由于知识不成框架体系很容易在看到新的观点时动摇。在试了非常多错后,小田的感觉是在科技科普、生物、生命科学这些科普上还是要系统的翻阅学习一下书籍。现在非常多的大众科普书籍语言不再那么“高大上”,“接地气”的书籍越来越多,那些前沿的知识也在慢慢的惠及到我们每一个普通人,在读书的渠道上真的非常推荐微信读书(因为不用花钱就可以看到很多书)。
目录
一. 计算机的发展
决策式AI
生成式AI
二. AIGC发展历程
PGC(professional generated content)
UGC(user generated cntent)
AIUGC(artificially intelligent UGC)
AIGC(Artificial Intelligence Generated Content)
三. AIGC的发展
一. 计算机的发展
我们在模型那篇文章中讲述了计算机的用途之一就是减少人力物力,代替科学家数学家来寻找数据规律,说白了就是发挥计算机“计算”的功效,这是计算机最初的发展。随着人工智能的发展,我们对计算机的需求不再局限于“计算”了,更希望它可以像人类大脑一样进行识别判断。
举个例子,在这一堆猫猫狗狗的图片中我们可以一眼识别它们属于哪一类:
在这一对歪歪扭扭的数字中我们也可以辨认出数字:
人类大脑通过极强的学习能力可以达到辨认识别的能力,但对于只有二进制的计算机要达到这个能力是非常艰难的,随着人工智能的发展,识别能力不断提升,而AIGC(全称为Artificial Intelligence Generated Content:人工智能生成内容)正是人工智能在生成式AI中的应用。我们常见的ChatGPT、文心一言、讯飞星火等等都是AIGC的产品。大模型出现后,人工智能在各行各业都出现了广泛的应用:
人工智能可以从不同维度进行划分,如果从我们刚刚说到计算机对于“识别”能力(模型)来划分可以分为决策式AI和生成式AI。
决策式AI
首先我们来初步感受一下决策式AI的应用:人脸识别、自动推荐系统、智能决策系统、风控系统、自动驾驶等等。
在人脸识别领域,决策式AI对实时获取的人脸图像进行特征提取,再与人脸库中的特征数据进行匹配,从而实现人脸识别。 在推荐系统中,决策式AI通过学习一些平台用户的消费行为数据,制定合适的推荐方案。我们观察决策式AI的应用领域不难发现它的工作特点:根据收集的数据和分析,自主做出决策,以解决特定问题或优化业务成果。
所以决策式AI更是一种决策技术,它在于通过数据学习模仿人的感官来达到“识别”,再进行决策。那什么叫做“决策”呢?其实就是做区分和判断,比如上图中给你一张图片判断是小猫还是小狗,给你一个穿着小猫衣服的小狗判断它还是不是🐕,给你一只小狗你来判断是大型犬还是小型犬等等。
那作为一个计算机它怎么“看出”这些差异进行判断呢?那就要提到机器学习中的一个概念:有监督学习,实际上就是给数据“打标签”,对不同的数据进行区分。比如进行人脸识别的机器需要“看到”人脸的某些特征(如面部轮廓、眼睛、眉毛和鼻子等)才能进行判断,这时计算机就会对人脸的面部特征进行采集并打上识别标签。
当我们在机器面前进行人脸识别时,一旦人脸图像被输入到模型中,系统会进行特征提取,对我们的面部特征(如眼睛、鼻子、嘴巴等)进行识别和定位。接着会通过比较输入的人脸图像与数据库中的人脸图像的特征向量,来识别出输入人脸的身份。这一步通常是通过比较人脸的特征向量与数据库中的特征向量的相似度来实现的,而从特征的提取到图片的比对都离不开相同“标签”下的数据。
生成式AI
生成式AI的应用场景之一就是我们现在极为火爆的ChatGPT。生成式AI更像是模仿人的“头脑”进行对知识的归纳总结,创作模仿,因此生成式AI备受瞩目的原因之一就是他有创作的能力!
那这个创作的能力从哪里来呢?从极为庞大的数据库及极为庞大的模型来。生成式AI通过学习数据中多个变量组成的向量的联合概率分布对数据进行归纳总结,在此基础上通过深度学习技术等创作、模仿并生成“全新的”内容。但我们同样可以知道的是生成式AI的创作绝不是像人类一样可以天马行空的想想创新,它是依托于互联网已有的数据内容进行模仿学习,并加以创作,没发生的新闻或是我们很多创新性的想法很多时候它会无法回答。
生成式AI虽然没有决策式AI发展时间长,但它现有的发展出来的功能却十分强大。生成式AI不仅可以做到文本生成、图片生成、音频生成、视频生成,更是在跨模态生成中显示出强大的力量,如根据图片生成视频、根据文字生成视频等等。
二. AIGC发展历程
我们先来梳理一下内容创作的历程,内容创作模式到目前经历到了第四轮迭代:
PGC(professional generated content)
PGC即“专业生产内容”,是一种内容制作模式,主要是具备专业背景的内容生产者所创造的内容,其技术实现主要包括内容采集、内容制作和内容分发三个环节。
在内容采集环节,PGC平台通过建立内容库和内容搜索系统,整合各类优质内容资源,实现内容的自动化采集和筛选。在内容制作环节,PGC平台提供专业的制作工具和流程,确保内容的质量和原创性。最后,在内容分发环节,PGC平台通过多种渠道将内容推送给用户,包括但不限于视频网站、社交媒体、移动应用等。
UGC(user generated cntent)
UGC即“用户生产内容”,是一种内容创作和分享的商业模式,其内容的源头更偏大众化,人人都可以作为用户进行内容生产。其技术实现主要包括用户生成内容、内容分发制作、内容审核管理、用户互动四个环节。
这些专业名词听起来是不是非常“高端”?咱们讲大白话就是到了人人可以做自媒体博主的时代,内容的创作更加大众化,比如小红书、bilibili、抖音等都是典型的UGC平台,这些平台鼓励用户生产内容,其中小红书以时尚、美妆、生活方式为主题的内容,吸引了大量消费者分享购物经验、寻找产品信息。B站在游戏、动漫、音乐等领域的内容创作上,也吸引了大量用户。同时,抖音和微视等短视频平台也提供了丰富的UGC内容。
AIUGC(artificially intelligent UGC)
AIUGC即“人工智能与用户创作的结合”,是一种基于人工智能和大数据技术的智能内容生成系统,其技术实现主要包括自然语言处理、机器学习、计算机视觉等。该系统通过分析海量数据,自动生成符合用户需求和兴趣的内容,包括文本、图片、视频、音频等多种形式。比如知乎:知乎是一个知识分享和交流的平台,它拥有大量的用户和高质量的内容。用户可以使用AI工具进行创作和分享,并且可以通过平台上的互动和反馈,不断提高自己的创作水平。
AIGC(Artificial Intelligence Generated Content)
在三轮迭代后,AIGC正式来袭,相比于前三轮的创作模式,AIGC中“无生命的”人工智能成为了创作源头,“无生命主体”成为了人类创作内容的生产者。
最初的AIGC通常以小模型展开,需要的数据更多是有标注的数据集,且高度依赖人工调参。随着大模型的发展,AIGC逐渐被大数据量、大参数量、强算法的大模型(Foundation Model)取代,此时的AIGC只需要经过少量参数的微调就可以实现生成多种任务。
2014年诞生的GAN(Generative Adverarial Networks,生成式对抗网络)就是AIGC早期转向大模型的尝试,它利用深度学习技术中的生成器和判别器的相互对抗以及其他技术模块可以实现多模态内容的生成。
2017年Transformer(变换器)架构的提出使得深度学习模型的参数达到超大规模,突破1亿大关。前面模型那一篇文章说到,参数相当于文章的“旋钮”,“旋钮”越多在一定程度上说明我们构建的模型可以拟合的越好。
2022年11月39日,OpenAI发布了名为ChatGPT的超级AI对话模型,再一次引爆了人们对于AIGC的讨论热潮。ChatGPT不仅可以流畅的回答用户的问题(包括代码修改、诗歌撰写等等),更显示出某些人类特质(如承认错误、避开敏感话题等)。
三. AIGC的发展
随着AI技术的快速发展,我们最常听到的担忧是:AI会不会取代人类?AI都会编程了程序员难道不会失业吗?比如我问问机器人:
它说有可能,但这个可能是来源于哪里呢?来源于它基于庞大数据集中概率的推算。机器人捕捉到的也许是程序员80%的时间在做一些相对简单可被替代的工作,但20%的时间所作的那些富有创造性的、更加困难的工作往往是不可替代的核心。各行各业大概都是如此,AIGC也许会是提高重复枯燥的工作效率的一个好帮手,但却无法代替那些计算机“看不到的”无法想象的创造力。
在《硅谷101》这档播客中,有一期节目中嘉宾对于AIGC的发展抱有积极的态度,他举了这样一个例子:例如羊了个羊这样的小游戏一些在校的学生组成的三五个人的小团队是能够开发出来的,但是可能在美工画面方面被卡住了,这时候AI绘画也许能突破他们的限制,帮助他们更流畅地实现他们的小项目。
推荐书籍:
《AI 3.0》梅拉妮·米歇尔
《AIGC从入门到实践》韩泽耀 袁兰 郑妙韵
《AIGC智能创作时代》杜雨 张孜铭
《这就是ChatGPT》斯蒂芬·沃尔弗拉姆
推荐播客:
《硅谷101》
下一期预告:怎么问GPT它回复效率更高