读懂ChatGPT、AIGC和元宇宙

参考来源：

书名：一本书读懂ChatGPT、AIGC和元宇宙
作者：王喜文

出版社：电子工业出版社
出版时间：2023年5月
ISBN：9787121453571

斯克称ChatGPT将颠覆世界；
微软为ChatGPT投资数百亿美元，
并计划将其整合到Offce办公软件和Bing搜索引擎之中；
在一些高校和学术机构中，兴起了关于用ChatGPT写论文是否合规的大讨论；
甚至，
一些咨询公司也开始担心自己的饭碗会被抢走……
2023年，应用ChatGPT的热情已经被点燃，ChatGPT的应用场景不断快速拓展。

未来已来，不管人类是否欢迎它。

在这个时代，所有人都感觉到，世界的变化太快了，知识的更新太快了，我们很难跟上这种变化。在心理上、行为上、动作上和策略上，我们该如何应对巨变？每一个工作，每一个工种，每一个步骤，每一个流程，都在被技术所赋能、所改变。

比如现在很多人认为，人工智能（AI）将会代替人类，有了ChatGPT，人类的工作就会被取代。实际上，大家都忽略了最基本的一点，人类这种被称作“智人”的动物，在历史的长河中遇到过很多次濒临灭绝的状况，但人类并没有灭绝，因为人类有主观能动性。人是一种极具智慧的、能够适应复杂变化的智能生物。为什么AI的出现会带来如此大的争议？有些人知道应对AI该怎么做，但是决定不这么做，因为他们觉得这么做不好。

当然还有很多人知道AI很好，但不知道具体该怎么做。要不要用AI代替人类的工作流，取决于人的世界观、价值观、知识、经验、能力，以及所在族群的文明、文化、关系、特征，这些因素叠加在一起，才有可能得出一个结论——人类是否愿意拥抱最新的科技，去学习、去体悟。不过，AI将会代替人类，为人类造福，还是适可而止？这些情况都有可能发生。AI这扇门已经打开，不管你愿不愿意拥抱它，不管你觉得它是好是坏，你都一定要努力学习、努力拥抱、批判性地接受它，让人类成为它的主人。如今，在人类与机器的教育之间，其实更重要的是人类的教育。对于AI会如何进化，现在还没有明确的结论，所以我们要先拥抱、先学习。

人类从前以为自己的知识很值钱，但是在未来，知识需要以人的智慧表达出来。虽然知识是死的，但是人类可以通过主观能动性利用知识，经实践后产生智慧，再形成新的知识。如今，社会上不断出现能够被机器学习的、由人类智慧提供的新的知识。

因此，知识要被利用起来，机器要不断地学习，不断地提炼，不断地沉淀，这样一来，社会很可能趋于良性发展。王喜文博士的这本书与读者一起分享了前沿科技的最新成果，不仅给科技工作者、政府职员、学者、企业从业人员提供了研究依据，也给学生、教师等群体带来了丰富的课堂案例。本书逻辑清晰、通俗易懂，让人耳目一新，对AI的未来充满憧憬……

ChatGPT是AIGC（AI Generated Content，人工智能生成内容）技术进步的成果体现。在我们的生活中，人工智能早已普及，比如工业机器人替代人类去喷漆、焊接，导航App自动规划路径，人脸识别技术在生活中被广泛应用……尽管上述人工智能已经可以替代人类完成某种工作或者具备人类的某种特征，但是人工智能仍旧与真正的人类相去甚远。要使人工智能更接近人类，那么人工智能就必须具备人类拥有的创作能力，这就是AIGC存在的意义。AIGC开启了AI绘画、AI作曲、AI写作，乃至AI生成影视作品的新篇章，可以说是人工智能历史中的跨越式升级。ChatGPT的出现为所有人提供了以自然语言对话方式进行文本生成的新方式和新工具，将大幅降低构建元宇宙的门槛，使我们可以用与以往构建互联网时完全不同的方式来构建元宇宙。大量的非专业人员可以通过语言来描述自己的需求，而ChatGPT会根据接收到的需求自动生成设计图和代码，使构建元宇宙的效率得到极大提升，成本得到极大降低，元宇宙中的内容也得到极大丰富。

ChatGPT将彻底改变ChatGPT是AIGC（AI Generated Content，人工智能生成内容）技术进步的成果体现。在我们的生活中，人工智能早已普及，比如工业机器活中被广泛应用……尽管上述人工智能已经可以替代人类完成某种工作或者具备人类的某种特征，但是人工智能仍旧与真正的人类相去甚远。要使人工智能更接近人类，那么人工智能就必须具备人类拥有的创作能力，这就是AIGC存在的意义。AIGC开启了AI绘画、AI作曲、AI写作，的新方式和新工具，将大幅降低构建元宇宙的门槛，使我们可以用与以往构建互联网时完全不同的方式来构建元宇宙。

大量的非专业人员可以数字人的构建技术：从数字人的面貌、穿着、形态设计，数字人的行动和姿态，以及数字人的自然语言沟通，到数字人的任务执行、数字人与环境的感知和交互等。ChatGPT将使数字人的构建更为便捷和简单，让数字人的功能更加丰富。2023年对于人工智能来说是一个里程碑式的年份。随着ChatGPT和AIGC风靡全球，人工智能技术近10年来再一次兴起并走向台前，进入公众的视野。

在过去几年中，科技巨头们已相继成立人工智能实验室，投入越来越多的资源抢占人工智能市场，甚至有些企业整体转型为人工智能公司，加紧谋划人工智能的未来布局。我国及其他各国政府都把人工智能当作未来的战略主导，出台战略发展规划，从国家层面进行整体推进，迎接即将到来的人工智能时代。这一次人工智能的兴起，不仅仅局限于实验室研究。相关理论和关键共性技术的研究与商业化应用在同时推进，这使人工智能领域涌现出更多的产品化解决方案和服务化落地应用案例，让公众真实地感受到了它的冲击力和影响力。尤其是在大型语言模型（LLM）、基于人类反馈的强化学习、多模态模型和自然语言处理等基于深度学习算法应用的领域，人工智能正在迅速产业化，产业竞争的赛道也将随之变得更加拥挤。

数字人的构建技术：从数字人的面貌、穿着、形态设计，数字人的行动和姿态，以及数字人的自然语言沟通，到数字人的任务执行、数字人与环境的感知和交互等。ChatGPT将使数字人的构建更为便捷和简单，让数字人的功能更加丰富。

2023年对于人工智能来说是一个里程碑式的年份。随着ChatGPT和AIGC风靡全球，人工智能技术近10年来再一次兴起并走向台前，进入公众的视野。在过去几年中，科技巨头们已相继成立人工智能实验室，投入越来越多的资源抢占人工智能市场，甚至有些企业整体转型为人工智能公司，加紧谋划人工智能的未来布局。

我国及其他各国政府都把人工智能当作未来的战略主导，出台战略发展规划，从国家层面进行整体推进，迎接即将到来的人工智能时代。这一次人工智能的兴起，不仅仅局限于实验室研究。相关理论和关键共性技术的研究与商业化应用在同时推进，这使人工智能领域涌现出更多的产品化解决方案和服务化落地应用案例，让公众真实地感受到了它的冲击力和影响力。尤其是在大型语言模型（LLM）、基于人类反馈的强化学习、多模态模型和自然语言处理等基于深度学习算法应用的领域，人工智能正在迅速产业化，产业竞争的赛道也将随之变得更加拥挤。

2022年12月，ChatGPT还只是个具备聊天功能的社交网络媒体应用。但2023年伊始，ChatGPT已经被公认为是继互联网、智能手机之后，带给人类第三次“革命”的科技产品。互联网开辟了“空间革命”，使实时与全世界链接成为现实，让我们不必千里迢迢奔赴现场，就可以通过互联网进行沟通、教学、视频会议，让政治、社会、商业产生连锁变化；智能手机的出现，带来了“时间革命”，通过可拓展安装的各种App（应用软件），我们可以实现最快交易、快速送达，让生活、工作、消费产生巨大变化；而ChatGPT的横空出世，有望掀起“思维革命”，ChatGPT可以代替人类进行创意创作、咨询解答、翻译服务、客服服务……改变人类思考和处理问题的方式，并由此重塑各行业生态，乃至重塑整个世界。

ChatGPT引发的思维革命

在ChatGPT中，GPT就是Generative Pre-training Transformer（预训实时与全世界链接成为现实，让我们不必千里迢迢奔赴现场，就可以通过互联网进行沟通、教学、视频会议，让政治、社会、商业产生连锁变服服务……改变人类思考和处理问题的方式，并由此重塑各行业生态，在ChatGPT中，GPT就是Generative Pre-training Transformer（预训练生成模型），OpenAI的语言模型可以助力教育领域、虚拟治疗师、写作辅助工具、角色扮演游戏等，在这些领域，社会偏见、错误信息和毒害信息的存在是比较麻烦的，只有规避这些系统缺陷才能使其更具有用性。ChatGPT能够回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码等，它也会承认错误、质疑不正确的前提并拒绝不恰当的请求。短短两个月，人们源源不绝地挖掘出ChatGPT的更多技能，包括替写代码、作业、论文、演讲稿、活动策划、广告文案、电影剧本等各类文本，根据描述绘图、翻译、写诗词，甚至扮演面试官、电影中的角色、陪聊、解忧讲故事者，乃至给予家装设计、编程调试、人生规划等方面的建议。只要你悉心调教，ChatGPT甚至能从擅长交流的“咨询大师”快速进化，成为高效学习工具。经过连续追问，它能为你列举出辅助学习的大量书单和资料链接，帮你提炼一篇文章的关键要点、一个领域的知识图谱及核心脉络，甚至帮你在灵感枯竭时打开创意脑洞。ChatGPT看起来什么都懂，就像一本百科全书。

其流畅的回答方式，丰富的知识储备，给用户带来了极大的震撼。瑞银集团的一份报告显示，在ChatGPT推出仅两个月后（2023年1月末），它的活跃用户量已经突破了1亿，打破了抖音的9个月的纪录，成为史上用户增长速度最快的App之一。而突破1亿用户，App Store用了2年，Instagram用了2.5年，WhatApp用了3.5年，推特用了5年（见图1-2）。在过去几个月里，一大群人涌入网站，给ChatGPT提了各种要求。有软件工程师要求它调试代码，它做到了；有美食博主要求它写一份健康巧克力曲奇的食谱，它做到了；还有使用者让它为其编写绘画提示，以输入至另一个人工智能绘画应用Midjourney，它做到了，Midjourney根据它的文本描述成功创作出艺术作品。

据说，斯坦福大学医学院的皮肤科医生Roxana Daneshjou在研究AI在医学上的应用时，向它提出了许多医学问题，并得到了充分的解答……以前也出现过很多智能聊天机器人，但都没有ChatGPT这样神奇。ChatGPT可以进行长时间、流畅的对话，以回答人们的问题，并能撰写人们要求的几乎任何类型的书面材料，包括商业计划、广告活动方案、诗歌、笑话、计算机代码和电影剧本等。ChatGPT的应答时间十分短暂，它会在几秒钟内生成回答，用户无须等待，而且它生成的很多内容质量都还不错。

ChatGPT的主要特征

ChatGPT这次突然引爆舆论，在业内人士看来颇有些不可思议，连开发ChatGPT的OpenAI自己也没想到，它们可以顺利获得微软100亿美元的投资。微软大规模投资OpenAI，并宣布除了Office，搜索引擎Bing也要全面集成ChatGPT，势必要打破Google对搜索引擎20多年的垄断。这一举措逼得Google连投竞争对手，并把业务组织完全变阵。OpenAI是美国的AI实验室，是非营利组织，其功能定位是促进和发展友好的人工智能，使人类整体受益。

OpenAI成立于2015年底，创始人是埃隆·马斯克（Elon Musk）及前YC总裁山姆·阿尔特曼（SamAltman）

维基百科资料显示，从时间轴来看，2015年底，OpenAI成立，组织目标是通过与其他机构和研究者自由合作，向公众开放专利和研究成果。2016年，OpenAI宣称将制造通用机器人，希望能够预防人工智能21始人是埃隆·马斯克（Elon Musk）及前YC总裁山姆·阿尔特曼（Sam织目标是通过与其他机构和研究者自由合作，向公众开放专利和研究成的灾难性影响，推动人工智能发挥积极作用。2019年3月1日成立OpenAI LP子公司，目标是盈利和商业化。2019年7月22日微软投资OpenAI 10亿美元，双方合作为Azure（微软的云服务）开发人工智能技术。2020年6月11日OpenAI宣布推出GPT-3语言模型，微软于2020年9月22日取得独家授权。2022年11月30日，OpenAI发布了名为ChatGPT的自然语言生成式模型，以对话方式进行交互。2023年1月，微软和OpenAI洽谈投资100亿美元事宜，并希望将OpenAI的人工智能技术纳入Word、Outlook、PowerPoint和其他应用程序中。

在全球经济不明朗的大环境里，ChatGPT的诞生似乎吹起了一股清风，ChatGPT被寄予以智能科技来改善世界经济、促进社会进步的美好愿望。自从ChatGPT出现后，突然之间，每个人都在谈论人工智能如何影响他们的工作、学习和生活。ChatGPT之所以让大家感到震撼，是因为其用户体验大大超越以往的人机对话产品。普通使用者感觉到，自己不再是跟“人工智障”对话，ChatGPT对问题的理解很深入，生成的文本也很流畅，的确像是一个“人”在进行回复。甚至还有工程师尝试用ChatGPT改善智能家居体验。据说，一名高级Web开发人员用短短不到1小时的时间，通过与ChatGPT背后的GPT-3大模型交互，结合SiriShortcuts做出了一个更智能的语音助手。这个语音助手不仅能控制整个苹果HomeKit智能家居系统，而且能够以超低的延迟轻松回答各种问题。他给予了ChatGPT极高的评价，称尝试过这个产品后，包括苹果Siri、亚马逊Alexa、Google Home在内的所有“智能”助手，都显得如此愚蠢而没用。此外，ChatGPT将取代部分人类工作者的说法也耸人听闻地传开了，他们是：软件开发人员、网络开发人员、程序员、广告人、新闻记者等内容创作者，以及律师、市场研究分析师、教师、金融分析师、财现在的微软只是回来了，试图用OpenAI的ChatGPT，将Google通过投资DeepMind、Boston Dynamics、Waymo积累的光环击碎。微软CEO为其用户体验大大超越以往的人机对话产品。普通使用者感觉到，自己ChatGPT改善智能家居体验。据说，一名高级Web开发人员用短短不到1Siri、亚马逊Alexa、Google Home在内的所有“智能”助手，都显得如此了，他们是：软件开发人员、网络开发人员、程序员、广告人、新闻记者等内容创作者，以及律师、市场研究分析师、教师、金融分析师、财务顾问、交易员、平面设计师、会计师、客服等。这个取代的过程似乎有点残酷。未来，从产品和投资的角度看，现在的客服、翻译、文员、初级程序员、文案、家教等以文字工作为主业的从业者将受到第一波冲击，规模将达到上千万人，比如印度就将受到巨大的影响。随着失业人口增加、行业巨变，紧接着大量的语言处理相关公司将失去价值，之前火过一阵子的语音助手都将无人问津……

ChatGPT相较于之前的InstructGPT，在训练过程方面略有不同。之前的InstructGPT模型是给一个输入，就给一个输出，然后与训练数据进行对比，对了有奖励，错了有惩罚；现在的ChatGPT只有一个输入，模型给出多个输出，然后“人”给这个输出结果排序，再让模型将这些结果从“善解人意”到“不知所以”排序，让模型学习人类排序的方式，这种策略叫作监督学习（Supervised Learning）。总结而言，ChatGPT与InstructGPT的不同之处就在于数据是如何设置并用于训练（及收集）的。2023年初，OpenAI曾经提出，其会在不久的将来发布更为强大的GPT-4。据说，GPT-4会在2024年发布，它将能够通过图灵测试，并且能够先进到和人类比肩，除此之外，企业接入使用GPT-4的成本也将大规模下降。有专家猜测，GPT-4可能将在多模态上有所进展，也就是会引入视频、音频等。

人机交互系统

这种产业变革和模式创新至少会体现在以下方面：
1.改变现有人机交互模式用户将能够使用自然对话的方式与智能产品进行交互。由于ChatGPT可以比较精准地理解用户的意图，因此在随后的软件和服务调用上它能够更加贴合用户的需求，进而提高交互效率与任务成功率。这种人机交互模式的更迭，将会改变当前App等的使用方式。比如，更多的功能会被整合进App里，甚至出现拥有“大一统”能力的超级通用App。
2.改变信息分发获取模式基于认知智能技术可实现更高效的信息整合和知识推荐。以搜索为例，传统搜索引擎根据关键字匹配内容，使用者需要在海量搜索结果中筛选出有用信息，而ChatGPT加持的Bing搜索引擎可以直和服务调用上它能够更加贴合用户的需求，进而提高交互效率与任务成以搜索为例，传统搜索引擎根据关键字匹配内容，使用者需要在海接给出答案，并提高了问题与答案的匹配度，大大提升用户体验。由ChatGPT引发的信息分发获取模式的改变，影响流量的分布，并改变流量变现的商业模式。

深度学习的核心技术

GPT预训练模型的出现，无论从学术研究角度看，还是从场景应用角度看，都代表了自然语言处理领域的一个技术飞跃，并带来了整个领域研究范式的转换。

在大模型的框架下，ChatGPT所使用的GPT模型的每一代参数量均高速扩张，预训练的数据量需求和成本亦快速提升。ChatGPT官网在2023年1月27日至2023年2月3日吸引的每日访客数量高达2500万。

假设以目前的稳定状态，每日每位用户提出约10个问题，则每日约有2.5亿次咨询量。根据国盛证券计算机分析师刘高畅、杨然发表于2023年2月12日的报告《ChatGPT需要多少算力》，2023年1月平均每天约有1300万独立访客使用ChatGPT，其对应的芯片需求为3万多个英伟达A100 GPU图形处理器，初始投入成本约为8亿美元，每日电费在5万美元左右，GPT-3训练一次的成本约为140万美元，对于一些更大的LLM，训练成本介于200万美元至1200万美元之间。这对于全球科技大企业而言并不便宜，但尚在可接受范围内。对于ChatGPT的技术，Google、Meta等头部互联网巨头迟早都会掌握，但是科技公司之间的军备竞赛依旧会展开。

一方面，ChatGPT的推理成本高昂，而且消耗的算力与用户体验高度正相关；另一方面，搜索引擎用户黏度小，用户永远会去用体验最好的那个，这将大幅推高搜索算法的成本，使得Google赖以生存的搜索广告业务再也无法“躺着赚钱”。微软的营收将会更加多元化，因此受到的冲击会更小，能享受到访客使用ChatGPT，其对应的芯片需求为3万多个英伟达A100 GPU图形理成本高昂，而且消耗的算力与用户体验高度正相关；另一方面，搜索引擎用户黏度小，用户永远会去用体验最好的那个，这将大幅推高搜索Edge浏览器，甚至Windows系统市场份额增加的好处。说得直白一点，现在的微软相当于开启了大模型军备竞赛，想要“卷死”竞争对手。

早些年，企业通过自行发电来满足运营的电力需要，不仅耗资巨大而且还需具备某些与企业业务关联不大的特殊能力。电网基础设施的运行，使供电成为一项公共事业，这也使得企业能用购电代替自行发电，就其实质而言，企业将自行发电变为购买发电服务。集中发电可以使电力的使用更为高效，这意味着更多企业，甚至是个人可以根据自身的需要买电，而不用为其他电量支付任何费用。电力供应的公共化，提高了各部门的生产力，改善了社会生活的质量，并为新兴产业创造了发展机会。信息和通信技术行业也正经历着类似的演进过程。几十年来，机构和个人通过投资计算机软件和硬件，像购买商品一样购买信息和通信技术。

在过去十年中，信息和通信服务的供给方式快速更新，随着高速宽带基础设施的普及，通过网络我们可以将信息和通信技术作为一项服务来购买。如今，算力就像被大家广泛使用的电力一样，同时具有潜在破坏性与变革性。如果将AI比作电力，那么大模型算力则相当于发电机，能将智能应用在更大的范围中进行普及。大模型的智能能力在未来将成为一种公共基础资源，像电力或自来水一样随取随用。未来，每个智能终端、每个App、每个智能服务平台，都可以像接入电网一样，接入由IT基础设施组成的算力网络，让AI算法与技术能够更广泛地应用于各行各业。各行各业的用户若想使用服务，却不想购买、安装和运行昂贵的计算机硬件，就可借助无处不在的有线或无线网络，从云端获取算力，这与使用其他公共服务没有区别。
巨大的算力需求与资金消耗

有研究估测，训练1750亿个参数大型语言模型的GPT-3，就需要有上万个CPU/GPU 24小时不间断输入数据，所需能耗相当于开车往返地球和月球，且一次运算就要花费450万美元。

ChatGPT展示出了强大的三种能力：● 语言生成：遵循提示词（Prompt），然后生成补全提示词的句子。这也是目前人类与语言模型最普遍的交互方式。● 上下文学习（In-context Learning）：遵循给定任务的几个示例，然后为新的测试用例生成解决方案。值得一提的是，GPT-3虽然是个语言模型，但它的重点不是语言建模（LanguageModeling），而是上下文学习。● 世界知识学习：包括事实性知识（Factual Knowledge）和常识（Commonsense）。以上三种能力都来自大规模预训练：在有3000亿个单词的语料上预训练拥有1750亿个参数的模型（训练语料的60%来自2016—2019年的Common Crawl语料库，22%来自WebText语料库，16%来自书籍和报刊，2%来自维基百科）。

具备创作能力，具有形成超越人工智能的专业能力和大众化的趋势，而且意味着它开始具备人类的思维能力，并有可能在越来越多的方面替代人类。

无限可能的未来图景。