AIGC周报｜30秒定制一个文生图模型；60美元让AI玩转《我的世界》；手机版“文生图”模型：2秒不到出一张图

AIGC（AI Generated Content）即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT，以及 Dall·E 2、Stable Diffusion 等文生图模型，都属于 AIGC 的典型案例，它们通过借鉴现有的、人类创造的内容来快速完成内容创作。

AIGC是“昙花一现”？还是将引领AI进入新的时代？_「AIGC 周报」_将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。

01 技术前瞻

60美元，训练一个能玩《我的世界》的AI模型

当前，构建一个能响应文本指令的AI模型，特别是涉及连续决策任务处理时，依然具有一定的挑战性。

在一项近期发表在预印本网站arXiv上的研究中，来自多伦多大学的研究团队通过在沙盒游戏《我的世界》中引入一个指令微调视频预训练（VPT）模型——STEVE-1，证明了已在DALL·E 2中使用的unCLIP方法对创建遵循指令的顺序决策代理同样有效。

值得一提的是，通过使用VPT和MineCLIP等预训练模型，以及文本条件下图像生成的最佳实践方法，STEVE-1的训练成本仅为60美元，且能够很好地遵循《我的世界》中广泛的开放式文本和视觉指令。

据介绍，通过低水平控制（如鼠标和键盘）和原始像素输入，STEVE-1在《我的世界》中为开放式指令跟随设定了新标准，远远超过以前的基准。

参考资料：
https://arxiv.org/abs/2306.00937

用一张图片，30秒定制一个文生图模型

当前，文生图模型可以生成具有高保真度的、与文本对齐的图像。然而，如何根据用户输入的图像生成具有新颖概念的图像，仍然面临着很多挑战。

为解决这一问题，大多现有的预训练文生图模型的定制方法都会使用正则化技术来避免过拟合。尽管正则化技术可以缓解定制的挑战，并在文本指导下成功地进行内容创作，但它可能会限制模型的能力，使得一些细节信息丢失，生成效果较差。

该研究提出了一种新颖的无需正则化的定制文生图框架。具体而言，该框架包括一个编码器网络和一种新型采样方法，可以解决过拟合问题而无需使用正则化。通过所提出的框架，研究团队能够在半分钟内在单个GPU上定制一个大规模的文生图模型，而用户只需提供一张图片。

参考链接：
https://arxiv.org/abs/2305.13579v1

手机版“文生图”模型：2秒不到出一张图

当前，文本到图像的扩散模型可以根据自然语言描述创造出令人惊叹的图像，其创作水平甚至可能与专业艺术家和摄影师的作品相媲美。然而，这些模型规模庞大，具有复杂的网络架构，且要经过数十次去噪迭代，这就使得它们计算成本高昂、运行速度缓慢。

为了解决这些问题，来自Snap、美国西北大学的研究团队提出了一种通用方法——SnapFusion，即采用高效的网络架构并改进步骤蒸馏，首次实现了在移动设备上以不到2秒的速度运行文本到图像扩散模型。

具体而言，研究团队提出了一种高效的UNet，通过识别原始模型的冗余部分，并通过数据蒸馏来减少图像解码器的计算量；此外，通过探索训练策略和引入来自无分类器指导的正则化，进一步增强了步骤蒸馏的效果。

在MS-COCO数据集上的实验数据证明，SnapFusion在8个去噪步骤下实现了比Stable Diffusion v1.5在50个步骤下更好的FID和CLIP得分。

参考链接：
https://arxiv.org/abs/2306.00980

在《我的世界》里，AI“探险家”玩嗨了

近日，由英伟达、加州理工、斯坦福等高校和机构的研究团队推出的具身代理模型Voyager，在沙盒游戏《我的世界》中通过自主学习闯出了属于自己的一片天地——

在游戏中，Voyager不仅学会了挖掘、建房屋、收集、打猎这些基本的生存技能，还学会了进行开放式探索；它在世界各地“旅行”，去过不同城市、海洋、金字塔；还可以搭建传送门；能与末影龙战斗……

此外，Voyager还能通过自我驱动和探索不断发现新的物品和技能，根据不同的情况为自己装备不同等级的盔甲，以及使用多样化且具有创造性的工具，如使用栅栏圈养动物、使用盾牌格挡伤害等。

参考链接：
https://arxiv.org/abs/2305.16291

OpenAI提出减轻ChatGPT幻觉的新方法

OpenAI提出了一种减轻ChatGPT等AI大模型幻觉、实现更好对齐的新方法——通过“过程监督”来提高ChatGPT等AI大模型的数学推理能力。

据介绍，“过程监督”通过奖励每个正确的推理步骤，而不仅仅是奖励正确的最终答案（即“结果监督”），在解决数学问题方面达到了最先进水平。

数据显示，过程监督的奖励模型不仅在整体上表现更好，而且随着考虑每个问题的解决方案数量增加，性能优势也在扩大。这表明过程监督的奖励模型更加可靠。

除了得到高于结果监督的性能表现外，过程监督或许也有助于解决对齐难题，例如，它直接训练模型产生一个被人类认可的思维链。

目前，OpenAI的研究人员尚不清楚这些结果能否应用在数学领域之外，但他们认为，未来探索过程监督在其他领域中的影响的研究将至关重要。

参考链接：
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

记忆提取警告：AI学会“摄神取念”了

还记得伏地魔的“摄神取念”吗？如今，AI也学会了这种魔法。

由新加坡国立大学和香港中文大学学者共同打造的Mind-Video，不仅能读取人的大脑信号，还能用高清视频进行重现。不论是旅行途中的美景，还是绚烂的海底世界，不论是现实，还是梦境，只要是你所见所想，AI就能重现。即使是连续变化的场景，Mind-Video也能呈现出高清的、有意义的连续帧。

尽管目前Mind-Video重建的视频与人的思维仍有一定差距，但在一些场景下，它复刻的准确度却出奇地惊人，甚至能复现出与你脑海中高度相似的人脸。

参考链接：
https://arxiv.org/abs/2305.11675

GPT-4等AI大模型学会制作工具了

从人类进化的里程碑可以发现，人类进化的关键转折点是人类有能力制造工具来解决出现的困难。

日前，来自Google Deepmind、普林斯顿大学和斯坦福大学的研究团队，将“进化”的概念应用在了大型语言模型（LLMs）领域——

他们提出了一个框架，在这个框架中，LLMs作为工具制作者能够生成自己的、可重新使用的工具来处理新任务。

由于工具制作过程只需要对给定的功能执行一次，因此生成的工具可以在不同的任务实例中反复使用。这种方法为处理复杂任务开拓了可扩展、成本高效的解决方案。

参考链接：
https://arxiv.org/abs/2305.17126

用GPT-4实现可控文本图像生成

当前，AI模型在图像生成细节方面还有很多瑕疵，且很难使用自然语言指定对象的确切位置、大小或形状。

来自加州大学伯克利分校和微软研究院的研究团队，试图通过编程的方式解决这一问题——利用大型语言模型（LLMs）生成代码的功能实现可控的文本到图像生成。

该研究提出了一个简单而有效的框架Control-GPT，首先使用GPT-4生成TikZ代码形式的草图，然后将这些草图充当为扩散模型的参考点，使扩散模型能够更好地理解空间关系和特殊概念。

这种方法使得prompt工程和草图创建过程不再需要人为干预，并提高了扩散模型的可控性。

参考链接：
https://arxiv.org/abs/2305.18583

02 企业动态

英伟达生成式AI引擎已投入量产

近日，英伟达创始人兼CEO黄仁勋在NVIDIA Computex 2023演讲中宣布，生成式AI引擎NVIDIA DGX GH200现已投入量产。

英伟达官网显示，NVIDIA DGX GH200是将256个NVIDIA Grace Hopper超级芯片完全连接到单个GPU中的新型AI超级计算机，支持万亿参数AI大模型训练，能够处理大规模推荐系统、生成式人工智能和图形分析，并为巨型人工智能模型提供线性可扩展性。

黄仁勋表示，“不需要把数据储存在很多个模块中，DGX GH200更易训练大语言模型、深度学习推荐系统。”

一天10万张图，360公司利用AIGC生成广告素材

近日，360集团副总裁梁志辉表示，公司目前很多广告素材都是基于AIGC能力生成的，已实现一天10万张图的生成能力，正朝着一天100万张图的生成能力努力。

此外，公司内部正在研发AI数字员工产品，包括由大模型能力驱动的AI讲师、AI分析师和AI设计师等。

摩根大通正寻求雇佣比同行更多的AI员工

Evident数据显示，2月至4月，摩根大通在全球宣传招聘3651个AI相关职位，几乎是花旗和德意志银行的两倍。通过AI帮助高盛集团和ING等公司的Eigen Technologies表示，2023年第一季度银行问询量是去年同期的五倍。

清智人工智能孵化器正式成立

近日，清智人工智能孵化器在清华科技园宣告成立。据了解，孵化器采用深度孵化与资源整合相结合的方式，以场地+基金+专家指导+产业资源的形式为AI领域初创企业提供助力，力争从源头发现和支持原创优秀AI项目，同时推动学院科研成果转化，并构建一个良性、完善的创业创新孵化体系。

中国信通院：编制纸鸢开放人工智能模型许可证，促大模型落地

近日，中国信息通信研究院联合产业各方共同编制“纸鸢”开放人工智能模型许可证，旨在为共同打造具有变革意义的大模型开源项目奠定坚实基础。

中国信通院云大所开源和软件安全部主任郭雪表示，为充分发挥大型模型的通用性优势，促进大型模型技术在产业中真正落地，中国信息通信研究院联合产业各方共同编制“纸鸢”开放人工智能模型许可证，下一步将发布《纸鸢开放人工智能模型许可证（征求意见稿）》。

全球最大广告公司将利用AI大批量制作广告内容

日前，全球最大广告公司WPP已与芯片制造商英伟达展开合作，将利用生成式人工智能为客户大批量制作广告内容。黄仁勋表示，将共同开发内容引擎，WPP能够利用AI在几分钟内生成以前需要花费数周时间制作的广告。

03 政策法规

北京：系统构建大模型等通用人工智能技术体系

近日，北京市政府办公厅正式发布《北京市促进通用人工智能创新发展的若干措施》。其中提出，系统构建大模型等通用人工智能（AGI）技术体系。开展大模型创新算法及关键技术研究，鼓励开源技术生态建设。构建数据管理平台相关系统，研发数据清洗、标注、分类、注释及内容审查等算法及工具。构建多模态、多维度的基础模型评测基准及评测方法，建设自动评测开放服务平台。支持研发分布式训练系统、编译器及AI芯片自动化评测系统，推动基础软硬件广泛适配。持续探索通用智能体、具身智能和类脑智能等AGI新路径。

深圳：推进“千行百业＋AI”孵化高度智能化的生产机器人

近日，深圳市人民政府办公厅印发《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023—2024年）》。《方案》提出，推进“千行百业＋AI”。实施AI软件应用示范扶持计划，鼓励金融、商务、工业、交通等行业企业基于AI技术对现有生产、服务和管理方式进行升级。推动AI在设备故障检测和故障诊断、基于视觉的表面缺陷检测、智能分拣等制造业领域的应用。加强制造业数据的采集、利用、开发，探索建立企业数据“标注＋训练”闭环机制，储备高质量数据集，孵化高度智能化的生产机器人。加快推进低空智能融合基础设施项目建设，推动低空经济产业创新发展。

教育部等十八部门：探索利用AI等技术弥补优质教育教学资源不足

日前，教育部等十八部门联合印发《关于加强新时代中小学科学教育工作的意见》。《意见》要求，要改进学校教学与服务。按照课程方案开齐开足开好科学类课程，修订完善课程标准及教材，同时将教辅书纳入监管体系。强化实验教学，并广泛组织中小学生前往科学教育场所，进行场景式、体验式科学实践活动。为薄弱地区、薄弱学校援建科学教育场所，提供设备、器材、图书、软件等，并探索利用 AI、虚拟现实等技术手段改进和强化实验教学，弥补优质教育教学资源不足的状况。

OECD正考虑修订其AI指导方针

随着ChatGPT等生成式人工智能的迅猛发展，经济合作与发展组织（OECD）计划重新审视其AI指导方针。2019年5月，OECD出台了首部AI的政府间政策指导方针，确保AI的系统设计符合公正、安全、公平和值得信赖的国际标准。该指导方针不具备法律约束力。

04 专家观点

黄仁勋：AI意味着每个人都可以成为程序员

近日，黄仁勋表示，AI意味着每个人现在都可以成为计算机程序员，因为人们所需要做的就是与计算机对话，他为“数字鸿沟”的终结而欢呼。“编程门槛非常低。我们已经缩小了数字鸿沟。现在每个人都是程序员——你只需要对计算机说些什么，”他说。“进步的速度，因为它很容易使用，是它增长如此之快的原因。这将触及每一个行业。”

刘慈欣：早晚会有一天AI可以代替科幻作家或其他作家

近日，在2023中国科幻大会“科技驱动科幻产业高质量发展”论坛上，对于“人工智能会给科幻创作带来哪些变化”，当代科幻作家刘慈欣表示，“早晚会有一天，AI可以代替科幻作家或其他作家。”

他表示，人们常说AI没有人的灵魂、人的感受，这不过是一个自我安慰。人自己的灵魂、感受，也是很多神经元细胞连接成复杂系统后涌现出来的。

刘慈欣也补充道，即使有AI的影响，未来科幻作家不会彻底消失，“像现在皮影戏也没消失一样。人们的科幻创作会一直存在，但它不会成为那种一直受关注的、很主流的东西。”

Yoshua Bengio：对毕生工作感到“不知所措”

近日，图灵奖得主、被誉为AI“教父”之一的Yoshua Bengio教授表示，如果他此前就意识到AI的发展速度，他将会把安全置于有用性之上。

Bengio表示，对于他一生的工作，他感到“不知所措”。他的这一说法，是在业内专家说AI可能导致人类灭绝后发表的。他也加入了对AI监管的呼吁，认为军队不应该被授予AI的权力。

他表示，他一生的工作给了他方向和身份感，但如今已经不再清晰。“这对于身处AI行业内部的人来说是具有挑战性的，从情感上说。你可以说我感到迷茫。但你必须继续前进，你必须参与讨论，鼓励他人与你一同思考。”

另外，Bengio提出，所有建造强大AI产品的公司都需要受到监管。“政府需要追踪他们在做什么，需要能够审计他们，这只是我们对任何其他部门所做的最起码的事情，比如制造飞机、汽车或药品等。”

Sam Altman等数百名专家：像核战争一样，AI可能灭绝人类

近日，多位图灵奖得主、顶级AI公司CEO、顶尖高校教授，与数百位在各自领域享有话语权的专家，共同签署了一份公开信，内容简单却有力：降低AI灭绝人类的风险，应该与大流行病、核战争等其他社会规模的风险一样，成为全球范围内的优先事项。

在这份联名公开信的人名列表中，有很多耳熟能详的名字，包括“AI教父”、图灵奖得主Geoffrey Hinton、OpenAI首席执行官Sam Altman、Google DeepMind首席执行官Demis Hassabis等。

在一份相关的新闻稿中，CAIS表示，他们希望借此“设置护栏并建立机构，以便AI风险不会让我们措手不及”，并将对AI的警告比作“原子弹之父”J.Robert Oppenheimer对原子弹的潜在影响的警告。

李开复：中国大模型公司不应再依赖于他人的开源模型

在2023中关村论坛上，创新工场董事长李开复表示，中国大模型发展，自主创新是必经之路。他指出，要支持开源，但不能过度依赖开源模型，许多开源模型声称能达到类似ChatGPT 90%甚至100%的效果，这些模型在基本评测中可能接近ChatGPT，但仅通过API接口微调和对齐，而且只是做简单的对话，在长文本生成和推理等任务上受限。潜在挑战为：

1）开源模型无法达到与海外大厂自研模型的水准；

2）海外大厂的开源技术有关闭的风险；

3）国内外文化、用户习惯、法律法规不同。

李开复认为，中国大模型公司不应再依赖于他人的开源模型，需要尽快建立起自己的IP和技术优势，形成护城河。

赵志耘：大模型技术群正在快速壮大

近日，中国科学技术信息研究所所长赵志耘在中关村论坛上表示，AI大模型技术在自然语言理解、计算机视觉、智能语音等方向上都取得了标志性的进步，在模型精度、通用化和泛化能力等方面都实现了跨越式能力提升。ChatGPT激发语言大模型爆发式涌现，也吸引大量研发团队投入到通用视觉、多模态等更多大模型研发方向，仅用五年多时间，已迅速成长为庞大的大模型技术群，衍生出涵盖各种参数规模、各种技术架构、各种模态、各种场景的大模型家族。

吴朝晖：人工智能发展要坚持开源协作

近日，科技部副部长吴朝晖表示，中国政府高度重视人工智能的发展，并提出4点倡议：

一是坚持开源协作，加强大模式技术大模型技术持续创新；

二是坚持场景驱动，加强大模型行业应用，推动产品创新；

三是加强技术向善，以责任的态度来推动大模型的发展；

四是坚持开放合作，加强大众性国际交流与合作。

05 其他

因过于相信ChatGPT，一律师要失业了

随着AI行业的飞速发展，许多人开始担心ChatGPT等AI大模型会让自己失业。对一位纽约律师来说，这个噩梦可能会提前到来，但原因并非你所想。

据《纽约时报》报道，一名叫Steven Schwartz的律师曾向ChatGPT寻求帮助，希望在起草一份法律备忘录时得到一些辅助，结果可想而知，灾难性的事情发生了。

起因是这样的，Schwartz所在的律师事务所代表Roberto Mata起诉哥伦比亚航空公司（Avianca），声称他在飞往纽约市的肯尼迪国际机场的航班上受伤。当该航空公司要求联邦法官驳回这起案件时，Schwartz提交了一份10页的备忘录，论述了为何应该继续进行诉讼。尽管该文件引用了半打以上的法院判决案例，但不幸的是，所有阅读这份备忘录的人都找不到其中引用的任何一项法院判决。为什么？因为ChatGPT编造了所有这些判决案例。

在周四提交的一份宣誓书中，Schwartz写道，他“不知道ChatGPT的内容可能是虚假的”。他甚至分享了截图，证明他曾询问ChatGPT所引用的案例是否真实存在，ChatGPT的回答是“它们是真实的”。

Schwartz表示，他“非常后悔”使用ChatGPT，“将来绝不会在没有对其真实性进行绝对验证的情况下再次使用”。目前，他是否还有机会起草法律备忘录尚不确定。