摘要:
2022年,Chat GPT和Stable Diffusion展现了AIGC强大的技术实力,拉开了AIGC时代的帷幕。2023年,GPT-4、Midjourney V5等又掀起了人工智能的热潮,2024年2月15日(美国当地时间)正式对外发布的Sora又一次通过令人惊喜的效果证明,AIGC已经成为了毋庸置疑的科技趋势。AIGC作为新一代人工智能技术的重要分支,对我们的生活以及未来生活的展望已经产生了深远的影响。如今,AIGC已经从简单的文本生成过渡到了图片、视频生成,未来必定会给整个社会的生产带来一次技术的跳跃。本文通过梳理AIGC的诞生背景以及发展历程来向读者展现AIGC是如何一步一步成长为现代乃至未来生活着不可或缺的工具。
关键词:AICG、新一代人工智能技术、人工智能
目 录
绪 论
1 AICGC的诞生背景
2 AICGC的发展历程
2.1 AICG概念的出现:即AIGC萌芽阶段
2.2 AICG的寒冬阶段
2.3 AIGC稳步发展阶段
2.4 AIGC快速发展阶段
结 论
参考文献
绪 论
AIGC(AI-Generated Content)又称为生成式人工智能,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视 频、3D交互内容(如虚拟化身、虚拟物品、虚拟环境)等各种形式的内 容和数据。[1]
AIGC 技术正逐渐渗透到人们的生活、工作场景中,AIGC技术发展与产业形态已初步形成,处于方兴未艾大有可为之时。国外AIGC领域的相关企业既有谷歌、META、微软等科技巨头,也不乏StabilityAI、Jasper、 OpenAI等新晋独角兽企业。上述科技公司的项目不仅可以生成图片,还能够进行视频生成。例如, META推出Make—A—Video系统(Singer等,2022),实现了由文本到视频的飞跃;谷歌推出Imagen Video(Saharia等,2022)和Phenaki(Villegas等,2022),可以从文本提示中生成高清视频[2]。AIGC在海外市场发展迅速,2024年2月15日(美国当地时间)美国人工智能研究公司OpenAI的人工智能文生视频大模型Sora,正式对外发布,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域.很难以想象,对于使用者来说,只用描述一段文字,Sora就可以生成对应的视频,甚至对于中国的诗词都可以生成相应的画面。
在国内,相比于国际先进科技公司,虽然中国AIGC产业尚处于起步阶段,底层技术和商业化落地较国 外仍有一定距离,但众多国内知名企业如百度、阿里巴巴、京东在AIGC领域也进行了布局,并尝 试将相关技术应用于自身业务。比如百度的文学一言大模型。2019年初,阿里巴巴达摩院启动通用性人工智能大模型M6项目(Lin等,2021),并于2021 年3月首次发布,参数量达到干亿级,成为世界上最大的中文多模态模型。而京东,更让人赞叹的是数字人技术,京东利用AI虚拟数字人代替人,改变了传统的营销模式[2]。在4月15日,京东创始人、董事局主席刘强东将“变成”AI数字人“采销东哥”,在直播间分享刘强东在美食、读书等方面的经历与心得,同时会亮相京东家电家居、京东超市采销直播间。
区别于其它的达人主播,京东采销直播以“不收坑位费、不收达人佣金”的方式。“采销东哥AI数字人”运用了京东云言犀自研的AI驱动大姿态数字人技术,也是业内首次互联网大厂创始人数字人直播。无疑又让人工智能在社会上受到广泛关注。
自2022.09.23红杉美国发表了文章:《Generative AI: A Creative New World》,认为AIGC将带来新一轮的范式转移。2022.11.30 ChatGPT发布,用户飞速增长,AIGC走进了大众视野中。到如今的Sora,数字人或者遍地可见的人工智能大模型,都在预示着数字时代的到来。作为一个人工智能技术的服务对象。都应该对AIGC有一定的了解。
首先,什么是AIGC?国内产学研各界对于AIGC的理解是“继专业生 成内容(Professional Generated Content,PGC)和用户生成内容(User Generated Content,UGC) 之后(Nosita和Lestari,2019;Lobato等,2011),利用人工智能技术自动生成内容的新型生产方 式”。在国际上对应的术语是“人工智能合成媒体(AI—generated Media或Synthetic Media)” (Pataranutaporn等,2023),其定义是“通过人工智能算法对数据或媒体进行生产、操控和修改 的统称”。[3]但是,目前对于AIGC的定义却没有规范的界定。
南京大学数据智能与交叉创新实验室在《人工智能生成内容(AIGC)的技术特征与形态演进》一文中提出:为伴随着网络形态演化和人工智能技术变革产生的一种新的生成式网络信息内容。[4]
中国信通院则在《2022年人工智能生成内容(AIGC)白皮书》一文中认为AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。[3]
腾讯研究院的《AIGC发展趋势报告》认为AIGC是相对于过去的PCG、UCG而提出的,AIGC的狭义概念是利用 AI自动生成内容的生产方式。但是广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI。[5]本文剩余内容结构是:对AIGC产生背景及发展历程进行梳理,全面了解AIGC发展状况。
AICGC的诞生背景
1943 年,神经学家 Warren McCulloch 和数学家 Walter Pitts 合著了《神经活动中固有的思维逻辑运算》(A Logical Calculus of the Ideas Immanent in Nervous Activity),书中提出将数学和算法的结合,建立了神经网络和数学模型,模仿人的思维活动。该神经网络和数学模型,被称为MP模型。他们通过MP模型提出了神经元的形式化数学描述和网络结构方法,证明了单个神经元能执行逻辑功能,从而开创了人工神经网络研究的时代。[6]
1945年,图灵被招募到伦敦的国家物理实验室(NPL),创建了一台电子计算机。他设计的自动计算引擎(ACE)是第一个完整规格的电子存储程序通用数字计算机。此后计算机硬件开始发展,为AICG的发展铺垫了硬件基础。也就是从此时开始,计算机作为一个硬件辅助设备开始了发展。可以说AIGC的发展是依托于计算机技术的发展的。
1950年,艾伦•图灵(Alan Turing)在其论文《计算机器与智能(Computing Machinery and Intelligence )》中提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的试验方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。该测试的流程是,一名测试者写下自己的问题,随后将问题以纯文本的形式(如计算机屏幕和键盘)发送给另一个房间中的一个人与一台机器。测试者根据他们的回答来判断哪一个是真人,哪一个是机器。所有参与测试的人或机器都会被分开。这个测试旨在探究机器能否模拟出与人类相似或无法区分的智能。
1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,约翰·麦卡锡、马文·闵斯基(人工智能与认知学专家)、克劳德·香农(信息论的创始人)、艾伦·纽厄尔(计算机科学家)、赫伯特·西蒙(诺贝尔经济学奖得主)等科学家聚在一起,讨论如何用机器来模仿人类学习以及其他方面的智能。会议足足开了两个月的时间,参会人员没有达成普遍的共识,但是却为会议讨论的内容及内容起了一个名字:人工智能。因此,1956年也就成为了人工智能正式诞生之年。1956年的达特茅斯会议被后人称为为人工智能诞生的标志。会议上提出的研究结果中的一个便是“学习或者智能的任何其他特性的每一个方面都应能被精确地加以描述,使得机器可以对其进行模拟。”
1958年,麦卡锡组建了世界上第一个人工智能实验室。 同一年,麦卡锡发明了Lisp语言,这是人工智能界第一个最广泛流行的语言,至今仍在广泛应用。
1961年,Leonard Merrick Uhr 和 Charles M Vossler发表了题目为《A Pattern Recognition Program That Generates, Evaluates and Adjusts its Own Operators 》的模式识别论文,该文章描述了一种程序:程序启动时不知道要输入的特定模式,而且没有任何处理输入的运算符。算符是由程序本身生成和升级的,程序本身是问题空间的函数,也是处理问题空间的成功和失败的函数。程序不仅学习有关不同模式的信息,而且在一定程度上,它还学习或构造适合于分析输入到它特定模式集的二级代码。这也是第一个机器学习程序。也是后续计算机语言自举和人工智能模型自主学习的基础。
1966年,麻省理工学院的计算机科学家Joseph Weizenbaum 在 ACM 上发表了题为《 ELIZA,一个研究人机自然语言交流的计算机程序》的文章。文章描述了这个叫作 ELIZA 的程序如何使人与计算机在一定程度上进行自然语言对话成为可能。
1969 年 Marvin Minsky 和 Seymour Papert 在《感知机》中提出反向传播有时缩写为 BACKPROP,是一种与梯度下降法这样的最优化方法结合使用的,用于训练神经网络的常见方法,在机器学习史上是重要的算法之一。
1989 年,美国卡内基梅隆大学的研究人员 Dean Pomerleau 就花费了 8 年的时间,研发出了一套名叫 ALVINN (Autonomous Land Vehicle In a Neural Network) 的无人驾驶系统,并用在了 NAVLAB 货车上,并行驶了 2797 英里,实现了自动驾驶。虽然它的实现技术在今天来看非常原始,但是它证明了自动驾驶可以实现的。
1996 年 2 月 10 日,超级电脑 深蓝首次挑战国际象棋世界冠军 Kasparov ,但以 2:4 落败。
1997 年 5 月再度挑战 Kasparov ,比赛在 5 月 11 日结束,最终 深蓝电脑以 3.5:2.5 击败 Kasparov ,成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。
2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品,引发各界关注。随着人工智能越来越多地被应用于内容创作,人工智能生成内容 (Artificial Intelligence Generated Content,简称AIGC)的概念悄然兴起。[2]
2 AICGC的发展历程
2.1 AICG概念的出现:即AIGC萌芽阶段
随着神经网络和算法模型的建立,以及图灵创建第一台电子计算机过后,1946年,1946年2月14日,人类历史上第一台通用计算机ENIAC在美国宣布诞生,这是一台完全的计算机,能够重新编程并且解决各种计算问题。从此科学计算的大门被打开,也给AICG的诞生提供了硬件支持。1950 年,图灵提出“图灵测试”给出了判定机器是否“智能”的方法,1956年 Dartmouth 会议讨论用机器来模仿人类学习以及其他方面的智能。并为会议讨论的内容起了一个名字:人工智能。自此人工智能元年开启。“人工智能这一概念”也在世界上诞生。但是由于技术水平的受限和理论研究的进展不足,AIGC仅仅局限于小范围的实验,在这段过程中,依旧取得了不少的研究成果。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(JosephWeizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词[3]。
2.2 AICG的寒冬阶段
1974年-1993年,研究经费减少,AICG的发展进入第一个低谷在这段时期,由于高昂的研发投入没有实现预期的商业变现,世界各国以及政府开始减少人工智能领域的投入,AIGC没有实现重大突破。但得力于在萌芽阶段的发展,图灵测试、对话机器人以 及语控打字机等己经孕育了AIGC的雏形。1980到1987年间,专家系统流行并商用 (专家系统是一个智能计算机程序系统,程序内部被输入大量的某个领域专家水平的知识与经验,可以根据系统中的知识与经验,进行推理和判断,模拟人类专家的决策过程,可以用于解决那些需要人类专家处理的复杂问题)。正是得益于专家系统的流行,使得AICG的发展技术和理论实现知识得到发展,同时关于AICG的研究经费增加。但在1987到1993年期间专家系统溃败,使得AIGC研究经费大减,AICG的发展进入寒冬。
2.3 AIGC稳步发展阶段
2006年,随着深度学习算法取得跨越式进展,同时计算机的cpu在摩尔定律的理论下不断改进发展,硬件算力设备性能大幅提升,为AIGC逐渐进入稳步推进阶段做了准备。另一方面,由于计算机的小型化,互联网的推广普及使得数据规模剧增,这为各类人工智能算法提供了海量训练的数据,,AICG从实验性到应用性转变。在这样的背景下,2007年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的情况进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、翻译、合成等技术生成中文的语音。这无疑为 AIGC进一步发展带来希望。
2.4 AIGC快速发展阶段
随着神经网络算法和深度学习算法的不断发展,以及计算机等智能设备硬件的不断发展,AICG迎来了快速发展阶段。自 2014年起,Goodfellow等(2020)提出以生成式对抗网络(GenerativeAdversarialNetwork,GAN) 为代表的深度学习算法,并不断迭代更新,为AIGC提供了强大的技术支撑。此后,2017年,微软 人工智能少女“小冰”完成了世界首部完全由人工智能创作的诗集《阳光失了玻璃窗》。2018 年,英伟达发布可以实现自动生成图片的模型S锣1eGAN,该模型目前己升 级到第四代——StvleGAN—XL,其生成图片的分辨率极高,人眼难以分辨真假。 2019年,DeepMind发布DVD—GAN模型可以用于生成高度逼真且连贯的视频,该 模型能够通过学习和理解人类的语言,进行对话、聊天互动[3]。2021年,OpenAI 推 出 的 DALL -E2 模 型 、CLIP&DALL -E 模 型 , 谷 歌 的 Imagen 模 型 等 均 可 将 用 户 的 自 然 语 言转 化 为 图片,根据用户的描述生成逼真的图像, CLIP&DALL-E 模型还可实现跨模态检索;DeepMind 的 Gato 模型能够同时执行多达 600 多项任务,可以 一边视频游戏,一边聊天,同时通过机械臂堆叠积 木等[8]。2024年2月15日(美国当地时间)美国人工智能研究公司OpenAI的人工智能文生视频大模型Sora,正式对外发布,并发布了48个文生视频案例和技术报告,正式入局视频生成领域.很难以想象,对于使用者来说,只用描述一段文字,Sora就可以生成对应的视频,甚至对于中国的诗词都可以生成相应的画面。。同时,在算法、数据和算力的综合推动下,AIGC 应用已迅速展开。目前的应用模式主要分为三大部 分:一是基础生成算法模型和通用预训练大模型 应用,;二 是按需对大模型进行“专业训练”和调试形成定制 化的小模型,使其成为能够为教育、金融、传媒、游戏 等各行业提供服务的技术平台;三是在上述基础模 型和定制化小模型的基础上进一步开发面向个人和 企业用户的应用,形成最终产品,如聊天机器人、图 像生成软件等[9]。而随着云计算、计算机虚拟化、神经网络学习算法等理论发展,以及依赖于当代计算机的强大能力,AIGC正成为现代生产生活中重要的助力工具。
结 论
本文首先对AIGC的国内外研究进行了分析,展现了AIGC当前在社会和研究的热度,然后对AIGC的定义进行了阐述,由于AIGC的定义没有标准化,所以引用了一些学者给出的定义,接着对AIGC的产生背景进行了分析,从MP模型的铺垫,到图灵实验,接着到了人工智能概念的提出及后续的技术和理论实验铺垫都进行了一一介绍,最后,分析了对AICG的萌发、寒冬、稳定发展、蓬勃发展四个时期的情况进行了归纳整理。给读者完整的呈现了AICG的发展过程,揭开了这位当今社会宠儿的面纱以及其成长历程。AICG的发展过程充满了机遇与挑战。随着技术的进步和创新的推动,我们有理由相信AICG将继续发展,并为我们的生活带来更多的惊喜和改变。