台积电董事长预测：未来15年每瓦GPU性能提升1000倍，GPU晶体管数破万亿！

GTC 2024大会上，老黄祭出世界最强GPU——Blackwell B200 ，整整封装了超2080亿个晶体管。

比起上一代H100（800亿），B200晶体管数是其2倍多，而且训AI性能直接飙升5倍，运行速度提升30倍。

若是，将千亿级别晶体管数扩展到1万亿，对AI界意味着什么？

今天，IEEE的头版刊登了台积电董事长和首席科学家撰写的文章——「我们如何实现1万亿个晶体管GPU」？

这篇千字长文，主打就是为了让AI界人们意识到，半导体技术的突破给AI技术带来的贡献。

从1997年战胜国际象棋人类冠军的「深蓝」，到2023年爆火的ChatGPT，25年来AI已经从实验室中的研究项目，被塞入每个人的手机。

这一切都要归功于，3个层面的重大突破：ML算法创新、海量数据，以及半导体工艺的进步。

台积电预测，在未来10年，GPU集成的晶体管数将达到1万亿！

与此同时，未来15年，每瓦GPU性能将提高1000倍。

半导体工艺不断演变，才诞生了ChatGPT

从软件和算法到架构、电路设计乃至器件技术，每一层系统都极大地提升了AI的性能。

但是基础的晶体管器件技术的不断提升，才让这一切成为可能：

IBM训练「深蓝」使用的芯片工艺是0.6微米和0.35微米。

Ilya团队训练赢得ImageNet大赛的深度神经网络采用的40纳米工艺。

2016年，DeepMind训出的AlphaGo战胜了李世石，使用了28纳米工艺。

而训练ChatGPT的芯片基于的是5纳米工艺，而最新版的ChatGPT推理服务器的芯片工艺已经达到了4纳米。

可以看出，从1997年到现在，半导体工艺节点取得的进步，推动了如今AI飞跃式的发展。

如果AI革命想要继续保持当前的发展速度，那么它更需要半导体行业的创新和支持。

如果仔细研究AI对于算力的要求会发现，最近5年，AI训练所需的计算和内存访问量增长了好几个数量级。

以GPT-3为例，它的训练需要的计算量相当于每秒进行超过5千万亿亿次的运算，持续整整一天（相当于5000千兆浮点运算天数），同时需要3TB（3万亿字节）的内存容量。

随着新一代生成式AI应用的出现，对计算能力和内存访问的需求仍在迅速增加。

这就带来了一个迫在眉睫的问题：半导体技术如何才能跟上这种发展的速度？

从集成芯片到集成芯片组

自从集成电路诞生以来，半导体行业一直在想办法把芯片造得更小，这样才能在一个指甲盖大小的芯片中集成更多的晶体管。

如今，晶体管的集成工艺和封装的技术已经迈向更高层次——行业已经从2D空间的缩放，向3D系统集成迈进。

芯片行业正在将多个芯片整合到一个集成度更高、高度互连的系统中，这标志着半导体集成技术的巨大飞跃。

AI的时代，芯片制造的一个瓶颈在于，光刻芯片制造工具只能制造面积不超过大约800平方毫米的芯片，这就是所谓的光刻极限。

但现在，台积电可以通过将多个芯片连接在一块内嵌互连线路的硅片上来突破这一极限，实现在单一芯片上无法达到的大规模集成。

举个栗子，台积电的CoWoS技术能够将多达6个光刻极限范围内的芯片，以及十二个高带宽内存（HBM）芯片封装在一起。

高带宽内存（HBM）是AI领域越来越依赖的一项关键半导体技术，它通过将芯片垂直堆叠的方式来集成系统，这一技术在台积电被称为系统集成芯片（SoIC）。

HBM由多层DRAM芯片垂直堆叠而成，他们都位于一个控制逻辑IC之上。它利用硅穿孔（TSV）这种垂直连接方式让信号穿过每层芯片，并通过焊球来连接各个内存芯片。

目前，最先进的GPU都非常依赖HBM技术。

未来，3D SoIC技术将提供一种新的解决方案，与现有的HBM技术相比，它能在堆叠芯片之间实现更密集的垂直连接。

通过最新的混合键合技术，可以将12层芯片堆叠起来，从而开发出全新的HBM结构，这种铜对铜（copper-to-copper）的连接方式比传统的焊球连接更为紧密。

论文地址：https://ieeexplore.ieee.org/document/9265044

这种内存系统在一个更大的基础逻辑芯片上以低温键合，整体厚度仅为600微米。

随着由众多芯片组成的高性能计算系统运行大型AI模型，高速有线通信可能成为计算速度的下一个瓶颈。

目前，数据中心已经开始使用光互连技术连接服务器架。

文章地址：https://spectrum.ieee.org/optical-interconnects

不久的将来，台积电将需要基于硅光子技术的光接口，把GPU和CPU封装到一起。

论文地址：https://ieeexplore.ieee.org/document/10195595

这样才能实现GPU之间的光通信，提高带宽的能源和面积效率，从而让数百台服务器能够像一个拥有统一内存的巨型GPU那样的方式高效运行。

所以，由于AI应用的推动，硅光子技术将成为半导体行业中最为关键的技术之一。

迈向一万亿晶体管GPU

当前用于AI训练的GPU芯片，约有1000亿的晶体管，已经达到了光刻机处理的极限。

若想继续增加晶体管数量，就需要采用多芯片，并通过2.5D、3D技术进行集成，来完成计算任务。

目前，已有的CoWoS或SoIC等先进封装技术，可以在GPU中集成更多晶体管。

台积电预计，在未来十年内，采用多芯片封装技术的单个GPU，将拥有超1万亿晶体管。

与此同时，还需要将这些芯片通过3D堆叠技术连接起来。

但幸运的是，半导体行业已经能够大幅度缩小垂直连接的间距，从而增加了连接密度。

而且，未来在提高连接密度方面还有巨大的潜力。台积电认为，连接密度增长一个数量级，甚至更多是完全有可能的。

3D芯片中的垂直连接密度的增长速度与GPU中的晶体管数量大致相同

GPU的能效性能趋势

那么，这些领先的硬件技术，是如何提升系统整体性能的呢？

通过观察服务器GPU的发展，可以明显看到一个趋势：所谓的能效性能（EEP）——一个反映系统能效和运行速度的综合指标——正稳步提升。

过去15年中，半导体行业已经实现了，每两年将EEP提高约3倍的壮举。

而在台积电看来，这种增长趋势将会延续，将会得益于众多方面的创新，包括新型材料的应用、设备与集成技术的进步、EUV技术的突破、电路设计的优化、系统架构的革新，以及对所有这些技术要素进行的综合优化等因素的共同推动。

此外，系统技术协同优化（STCO）这一概念将变得日益重要。

在STCO中，GPU内不同的功能模块将被分配到专属的小芯片（chiplets）上，每个模块都采用最适合其性能和成本效益的技术进行打造。

这种针对每个部件的最优化选择，将对提高整体性能和降低成本发挥关键作用。

得益于半导体技术的进步，EEP指标有望每两年提升3倍

3D集成电路的革命性时刻

1978年，加州理工学院的Carver Mead教授和Xerox PARC的Lynn Conway，共同开发了一种革命性的计算机辅助设计方法。

他们制定了一系列设计规则，简化了芯片设计的过程，让工程师即使不深谙过程技术，也能轻松设计出复杂的大规模集成电路。

论文地址：https://ai.eecs.umich.edu/people/conway/VLSI/VLSIText/PP-V2/V2.pdf

而在3D芯片设计领域，也面临着类似的需求。

- 设计师不仅要精通芯片和系统架构设计，还需要掌握硬件与软件优化的知识。

- 而制造商则需要深入了解芯片技术、3D集成电路技术和先进封装技术。

就像1978年那样，我们需要一种共通语言，让电子设计工具能够理解这些技术。

如今，一种全新的硬件描述语言——3Dblox，已经得到了当下多数技术和电子设计自动化公司的支持。

它赋予了设计师自由设计3D集成电路系统的能力，且无需担心底层技术的限制。

走出隧道，迎接未来

在人工智能的大潮中，半导体技术成为了推动AI和应用发展的关键力量。

新一代GPU已经打破了传统的尺寸和形状限制。半导体技术的发展，也不再局限于仅在二维平面上缩小晶体管。

一个AI系统可以集成尽可能多的节能晶体管，拥有针对特定计算任务优化的高效系统架构，以及软硬件之间的优化关系。

过去50年，半导体技术的进步就像是在一条明确的隧道中前进，每个人都清楚下一步应该怎么做：不断缩小晶体管的尺寸。

现在，我们已经走到了这条隧道的尽头。

未来的半导体技术开发将面临更多挑战，但同时，隧道外也有着更加广阔的可能性。

而我们将不再被过去的限制所束缚。