一.AIGC是什么?
AIGC(即Artificial Intelligence Generated Content),中文译为人工智能生成内容。简单来说,就是以前本来需要人类用思考和创造力才能完成的工作,现在可以利用人工智能技术来替代我们完成。
在狭义上,AIGC是指利用AI自动生成内容的生产方式,比如自动写作、自动设计等。在广义上,AIGC是指像人类一样具备生成创造能力的AI技术,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据。
二.AIGC发展历史
AIGC的发展历程可以分成三个阶段:早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段(本世纪10年代中期至今)。
在早期萌芽阶段(1950s~1990s)
由于技术限制,AIGC仅限于小范围实验和应用,例如1957年出现了首支电脑创作的音乐作品《依利亚克组曲(Illiac Suite)》。然而在80年代末至90年代中期,由于高成本和难以商业化,AIGC的资本投入有限,因此未能取得许多显著进展。
在沉淀累积阶段(1990s~2010s)
AIGC逐渐从实验性转向实用性,2006年深度学习算法取得进展,同时GPU和CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供了海量数据进行训练。2007年出版了首部由AIGC创作的小说《在路上》(I The Road),2012年微软展示了全自动同声传译系统,主要基于深度神经网络(DNN),自动将英文讲话内容通过语音识别等技术生成中文。
在快速发展阶段(2010s~至今)
2014年深度学习算法“生成式对抗网络”(Generative Adversarial Network, GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA (英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年Open AI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。
2023年AIGC入世元年
而2023年更像是AIGC入世元年,AIGC相关的话题爆炸式的出现在了朋友圈、微博、抖音等社交媒体,正式被大众所关注。其中令人印象深刻的是微软全系融入AI创作和OpenAI GPT-4的发布:
2023年1月,微软必应搜索(Microsoft Bing Search)推出了一项创新的功能,即聊天模式(Chat Mode)。这项功能允许用户通过聊天框与必应搜索进行交互,获取信息、娱乐、创意等各种内容。必应搜索利用了先进的自然语言处理(NLP)和生成技术,能够理解和回答用户的各种问题和请求,同时提供相关的网页搜索结果、建议、广告等。必应搜索还能够根据用户的选择,切换不同的模式,如平衡模式(Balanced Mode)、创意模式(Creative Mode)和精确模式(Precise Mode),以满足用户的不同需求和偏好。必应搜索的聊天模式是AIGC领域的一个突破,展示了人工智能与人类交流的可能性和潜力。
三.AIGC核心技术
随着自然语言处理(NLP)技术和扩散模型(Diffusion Model)的发展,人工智能已经不再仅仅作为内容创造的辅助工具,而是可以创造生成内容。
自然语言处理技术是实现人与计算机之间如何通过自然语言进行交互的手段。它融合了语言学、计算机学和数学,使得计算机可以理解自然语言,提取信息并自动翻译、分析和处理。在自然语言处理技术发展之前,人类只能通过一些固定模式的指令来与计算机进行沟通,这对于人工智能的发展是一个重大的突破。
自然语言处理技术最早可以追溯到 1950 年,当时图灵发表了一篇论文,提出了「图灵测试」的概念作为判断智能的条件。这一测试包含了自动语意翻译和自然语言生成。自然语言处理技术可以分为两个核心任务:自动语音识别和自然语言生成。自动语音识别是将语音信号转换为文字,而自然语言生成则是将结构化数据转换为自然语言文本。
随着 AI 技术的不断发展,人工智能已经可以通过自然语言处理技术和扩散模型(Diffusion Model)来生成自然语言文本,这使得人工智能不再仅仅作为内容创造的辅助工具,而是可以创造生成内容。这种生成式人工智能可以用于自然语言问答、机器翻译、自然语言摘要、聊天机器人等多个领域,为人们提供更加智能化的服务和体验。
总之,随着自然语言处理技术和扩散模型的发展,人工智能已经可以创造生成自然语言文本,这将会给我们的生活和工作带来巨大的变革。
自然语言理解 NLU:希望计算机能够和人一样,具备正常人的语言理解能力。过去,计算机只能处理结构化的数据,NLU 使得计算机能够识别和提取语言中的意图来实现对于自然语言的理解。由于自然语言的多样性、歧义性、知识依赖性和上下文,计算机在理解上有很多难点,所以 NLU 至今还远不如人类的表现。
自然语言理解跟整个人工智能的发展历史类似,一共经历了 3 次迭代:基于规则的方法、基于统计的方法和基于深度学习的方法。
自然语言生成 (NLG) 是将非语言格式的数据转换成人类可以理解的语言格式的技术。该技术经历了三个阶段的发展,从早期的简单的数据合并到模板驱动模式再到现在的高级 NLG。通过这些发展,计算机能够像人类一样理解意图,考虑上下文,并将结果呈现在用户可以轻松阅读和理解的叙述中。
NLG 可以分为六个步骤:内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现。其中,内容确定是 NLG 的第一步,需要确定要生成的语言内容。文本结构是第二步,将内容转换成结构化的文本。句子聚合是第三步,根据文本结构生成句子。语法化是第四步,根据上下文规则对句子进行语法处理。参考表达式生成是第五步,根据生成的上下文信息生成参考表达式。最后,语言实现是第六步,将参考表达式转换成特定语言的表达式。
自然语言生成主要被应用在四个方面:情感分析、聊天机器人、语音识别和机器翻译。情感分析可以快速了解用户的舆情情况。聊天机器人可以帮助用户进行日常交流。语音识别可以提高交互的便利性,例如在微信中进行语音输入或将语音转换为文字。机器翻译可以提高跨语言交流的效率,使得不同语言之间的交流更加便捷。
总之,自然语言生成是一项非常有用的技术,可以帮助人们更加便捷地进行交流和处理信息。通过 NLG 技术,计算机可以将非语言格式的数据转换成人类可以理解的语言格式,从而实现更加高效的信息处理和交流。
微软Apache Spark
商业上,NLP 主要被应用在一下领域:
用于处理财务、医疗保健、零售、政府和其他部门手写或机器建立档案
文字处理工作,如:名称实体辨识(NER)、分类、摘要和关联撷取。这能将撷取、识别和分析文档资讯的流程自动化。
语意搜寻和资讯撷取和知识图表建立
跨零售、财务、旅游和其他产业客户的交互 AI 系统等。
神经网络,尤其是循环神经网络 (RNN) 是当前 NLP 的主要方法的核心。其中,2017 年由 Google 开发的 Transformer 模型现已逐步取代长短期记忆(LSTM)等 RNN 模型成为了 NLP 问题的首选模型。Transformer 的并行化优势允许其在更大的数据集上进行训练。这也促成了 BERT、GPT 等预训练模型的发展。这些系统使用了维基百科、Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调。
Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。除了 NLP 以外,也被用于计算机视觉领域。与循环神经网络(RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。
四.AIGC 能做哪些事?
AIGC可以应用于各行各业,主要包括但不限于生成文字、图像、音频、视频等。例如:
电商:生成商品标题、描述、广告文案和广告图
办公:写周报日报,写方案,写运营活动,制作 PPT,写读后感,写代码
游戏:生成场景原画,生成角色形象,生成世界观,生成数值,生成3D 模型,生成 NPC 对话,音效生成
娱乐:头像生成,照片修复,图像生成,音乐生成
影视:生成分镜头脚本,生成剧本脚本,台词润色,生成推广宣传物料,音乐生成
动漫:原画绘制,动画生成,分镜生成,音乐生成
艺术:写诗,写小说,生成艺术创作品,草图生成,艺术风格转换,音乐创作
教育:批改试卷,试卷创建,搜题答题,课程设计,课程总结,虚拟讲师
设计:UI设计,美术设计,插画设计,建筑设计
媒体:软文撰写,大纲提炼,热点撰写
生活:制定学习计划,做旅游规划
文字创作
随着AIGC技术的不断发展和完善,现在它已经不仅局限于新闻领域,而是可以应用于各种领域的内容创作。比如,在写作领域,AIGC技术被用于生成各类文本,如销售信、新闻稿、广告文案等等。这些文本的生成质量已经达到了甚至超过人类水平,并且可以针对所需格式进行定制。
此外,AIGC技术还可以进行风格改写,将用户已有的文本风格转化为其他的风格特征,从而获得更多的内容创作灵感和可能性。这种功能对于文章的改进和创意的扩展非常有帮助。
实际应用案例
写周报
写诗
写小说
图像创作
随着技术平台的不断发展和完善,如今用户不再需要具备专业的绘画技能,也能享受到艺术创意带来的快乐和美感。利用基于AIGC技术的数字画作平台,用户只需通过简单地输入自己想象中的场景和细节描述,计算机就可以自动生成一张具有艺术感和美感的绘画作品。
这样的创作模式大大降低了艺术绘画创作的门槛,让更多不具备繁琐绘画技巧的人也能够创造出有趣且富有想象力的绘画。通过AIGC技术,计算机可以快速地将文字转化成丰富多彩的视觉表现,为用户提供持续不断的创意灵感和艺术感受。
实际应用案例
AI生成古风人物
AI生成动漫头像
视频创作
AI视频创作技术的关键在于其高效性和精准性。通过利用人工智能技术,计算机可以自动地对图像和声音进行处理和优化,提高视频的表现力和质量。此外,基于AIGC技术的视频制作平台也提供了一系列强大的工具和功能,如自动配乐、特效处理、剪辑和合成等,使得用户可以快速、轻松地创作出令人印象深刻的视频作品。
实际应用案例
AI视频生成
AI视频
音频剪辑
AIGC技术的应用已经深入我们日常生活的方方面面,其中最显著的就是常见的手机导航中的语音提示。基于AIGC技术的语音合成系统能够在保证语音质量的同时,提供准确、实时的语音导航服务,让用户在行车或旅游过程中享受到便利和舒适。
除了日常生活中的应用外,AIGC技术在虚拟人领域的应用也是备受关注。利用AIGC技术生成虚拟人的声音,不仅可以呈现出足够真实的语音特征,更能够创建出令人印象深刻的语音效果。而且,基于AIGC技术的虚拟人还可以讲述指定内容,这种能够创造“智慧化人机交互”的方案将会成为未来的重要发展趋势。
此外,AIGC技术在音乐创作、广播电台等多个领域的应用也尤为广泛。AIGC生成的音频不仅可以用于音乐创作、电子合成,更可以模拟具有不同语感的Speaking将这些生成的声音与视频进行结合,创建出了视听效果非常棒的作品。
实际应用案例
[AI 孙燕姿] 《发如雪》cover 周杰伦
AI音频
游戏开发
AIGC技术在游戏制作方面扮演着越来越重要的角色,其主要应用包括了场景和故事的搭建。场景方面,利用AIGC技术,游戏开发人员可以快速地构建出丰富多彩的虚拟场景,如复杂地形、建筑模型、天气变化等等。这些场景不仅有助于游戏的沉浸感和真实感,更能为游戏添加更多的亮点和趣味性。
实际应用案例
AI游戏生成宝箱
代码生成
借助基于AIGC技术的代码生成工具,程序员可以高效、准确地生成信息量大且功能完备的程序代码,从而提高代码的开发效率和质量。此外,AIGC技术的应用还可以提高代码的可读性和可维护性,使得程序员在日常开发和维护过程中更加轻松和有效。
实际应用案例
AI代码生成
五.AIGC 的未来发展趋势
AIGC 是 PGC、UGC 之后,全新的内容生产方式。不仅能提升内容生产的效率以满足我们飞速增长的内容需求,也能够丰富内容的多样性。在 2022 年百度世界大会上,李彦宏提到了:「AIGC 将走过三个发展阶段:第一个阶段是『助手阶段』,AIGC 用来辅助人类进行内容生产;第二个阶段是『协作阶段』,AIGC 以虚实并存的虚拟人形态出现,形成人机共生的局面;第三个阶段是『原创阶段』,AIGC 将独立完成内容创作。未来十年,AIGC 将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,去生成 AI 原创内容。」
AIGC 面临的挑战
技术上来看,虽然当前生成的图片、文字已经可以用以商业用途,但还存在一些问题使得无法满足较高的质量要求。我们可以发现在二次元或抽象的图片生成中,AIGC 的表现较好。但对于比较具体和细节的内容,生成的效果不尽如人意。
下图是笔者通过 AIGC 生成的「美女与布偶猫」的图片,从这一张图片我们可以发现有两个问题:
其中有两幅图片的猫咪眼睛很奇怪,在这些细节描绘上还无法和真人画师媲美。
输入的关键词是「美女」与「布偶猫」,但是生成的「美女」均长着一张猫脸,从这里反映出 AIGC 绘画会出现一些空间位置以及数量上的偏差。产生的原因主要还是来源于语义理解和处理上的问题。
那么造成以上的这些问题和差距的原因在哪里呢?我们依旧可以从 AIGC 的工作原理上来分析:
自然语义的理解在处理一些空间关系上还存在一定的误差,这也是为什么在空间位置、数量上存在不精确的问题。
目前文本生成图像时,需要用到文本编码器将文字映射到图像上。当前主流的、训练完善的是来自与 OpenAI 的 Clip 模型,其函数是开源的,但训练的数据集是封闭的。AIGC 需要大量的良好画质的文本 - 图片对才能训练到 Clip 这样的程度。从 Clip 本身公开的信息来看,它使用了超 4 亿个文本 - 图片对来完成训练,这些都是基于英文的。那么存在以下几个问题:1、亿级别的高质量的文本 - 图片对在于其他的语言上获得的难度大幅提高,这也是为什么目前大多除英语外的其他语言的 AIGC 都是需要在整个流程前增加一步翻译。这一步不但涉及语义理解,还包含了文化、语言习惯等潜在的因素,很难被精确翻译,对于翻译模型的挑战很大。2、Clip 的模式很难复刻,即使运用 Clip 开源的函数,基于不同的数据库训练出的结果不同。据我们了解,海外有团队运用了 20 亿的文本 - 图片对才接近复刻了 Clip;
运用的 AIGC 生成算法不同也会导致产生的内容的差距;
数据集的质量、合规性、风格偏向都会决定生成的内容质量。
以上,我们可以看到若要使得 AIGC 生成的内容真正高效地被运用在商业层面,那么自然语言处理、翻译模型、生成算法和数据集这些细分赛道都还有很大的进步空间。
未来的发展方向
在上文中,我们了解到从应用软件方面,自然语言处理、翻译模型、生成算法和数据集这些细分赛道都还有很大的进步空间。更深入地来看,以上这些的发展需要依托于算力、数据的支持。所以未来的发展重点将更着力于大模型、大数据和大算力的方向去发展。同时,为了让功能更加精确,将会更多地去开发一些垂直类的应用,毕竟垂直类的应用可以更有针对性地为特定功能进行训练,成本相对较低。
从 PGC 到 UGC 再到 AIGC,AIGC 能让人类突破内容生产力枷锁,高效率生成高质量内容,让人类进入到真正的元宇宙之中。若要 AIGC 能够满足元宇宙的需求,独立完成高质量、高精度的内容,AIGC 技术层面还需要一定的发展,我们可以分为软硬件两个维度看,软件层面主要包括自然语言处理技术、AIGC 生成算法模型和数据集,硬件层面主要是算力、通信网络。
从业务层面看,结合国内外发展情况,目前在 AIGC 的知识产权归属方面尚有法律空缺,且创作伦理问题也未得到有效解决,因此无论是技术还是商业层面,高质、干净的数据集对于模型训练及内容生成均有至关重要的影响。同时,随着 AIGC 逐步落地,其算力需求将大增,未来相关企业除用云计算之外,或组建自有算力集群,考虑到英伟达 A100、H100 出口受限,相关国产算力芯片将有机会获得增量市场。
总结
今天小编为大家梳理一下AIGC,相信大家已经有了充分的了解。如今,AIGC技术在各个领域都得到了广泛的应用,涉及自然语言处理、计算机视觉、代码开发、游戏设计等不同类型的工具和应用。但是如何充分利用这么多AIGC工具呢?不必担心,HOTAIGC是一款非常实用的导航网站,它集合了上述所有AIGC类型工具的信息。使用HOTAIGC,可以帮助用户快速地找到各种AIGC应用工具,提高工作效率和工作质量。HOTAIGC的便捷性和实用性使得它成为AIGC领域内的一款非常优秀的导航网站,可以为用户提供无限便利。