当前位置:AIGC资讯 > AIGC > 正文

Etched公司推出了专为变压器模型设计的定制芯片在Llama 70B模型上每秒可处理超过500,000个token。这一速度比NVIDIA即将推出的顶级GPU GB200快了一个数量级。

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

2022年,押注变革世界的变压器架构。

在过去两年里,Sohu,全球首款专为变压器设计的专用芯片(ASIC),应运而生。这意味着Sohu无法运行大多数传统的AI模型,如驱动Instagram广告的DLRMs、AlphaFold 2这样的蛋白质折叠模型或是Stable Diffusion 2等旧版图像模型。也无法运行CNN、RNN或LSTM。

然而,对于变压器,Sohu是有史以来最快的芯片,速度远超其他。Sohu每秒超过50万个token的Llama 70B吞吐量,使得许多在GPU上无法实现的产品成为可能。Sohu比NVIDIA的下一代Blackwell (GB200) GPU还要快且便宜一个数量级。

如今,每个最先进的AI模型都是变压器:ChatGPT、Sora、Gemini、Stable Diffusion 3等等。如果变压器被SSMs、RWKV或任何新架构取代,Sohu将变得毫无用处。

但如果赌对了,Sohu将改变世界。以下是我们做出这一赌注的原因。

规模是超级智能的关键

五年间,AI模型在大多数标准化测试中变得比人类更聪明。这是因为Meta使用了比OpenAI在GPT-2上多50000倍的计算资源来训练Llama 400B(2024年的最先进模型,比大多数人类更聪明)。

通过为AI模型提供更多计算资源和更好的数据,它们会变得更聪明。规模是几十年来唯一持续有效的策略,每个大型AI公司(Google、OpenAI / Microsoft、Anthropic / Amazon等)将在未来几年内投入超过1000亿美元以继续扩展。我们正处于史上最大的基础设施建设时期。

GPU遇到瓶颈

圣克拉拉的秘密是GPU并没有变得更好,而是变得更大。芯片每单位面积的计算能力(TFLOPS)在四年内几乎没有提升。

NVIDIA的B200、AMD的MI300、Intel的Gaudi 3和Amazon的Trainium2都使用双芯片方案来“加倍”性能。2022-2025年,除了Etched,所有GPU性能提升都是依靠这种技巧。

随着摩尔定律的放缓,唯一的提升性能的方法是专业化。

专用芯片的必然性

在变压器流行之前,许多公司构建了灵活的AI芯片和GPU来处理各种架构,如NVIDIA的GPU、Google的TPU、Amazon的Trainium、AMD的加速器等。没有公司曾构建过专用算法的AI芯片(ASIC),因为芯片项目成本高达5000万至1亿美元,且需要多年才能投入生产。

但现在情况发生了变化:

前所未有的需求:在ChatGPT出现之前,变压器推理市场约为5000万美元,而现在已达到数十亿美元。所有大科技公司都使用变压器模型(OpenAI、Google、Amazon、Microsoft、Facebook等)。 架构的收敛:自GPT-2以来,最先进的模型架构几乎保持不变!OpenAI的GPT系列、Google的PaLM、Facebook的LLaMa,甚至Tesla FSD都是变压器。

变压器的巨大护城河

变压器在硬件上的优势:能够最快、最便宜地运行在硬件上的模型才是赢家。变压器足够强大、有用且盈利,能在替代品准备好之前主导每个主要AI计算市场。

每个大型AI产品:从代理到搜索再到聊天,都是由变压器驱动的。AI实验室已经投入数亿美元进行研发,以优化GPU以适应变压器。

认识Sohu

Sohu是全球首款变压器ASIC。一个8xSohu服务器可以替代160个H100 GPU。通过专业化,Sohu实现了前所未有的性能。一个8xSohu服务器每秒可以处理超过500,000个Llama 70B token。

由于Sohu只能运行一个算法,大多数控制流逻辑可以被移除,从而拥有更多的数学单元。因此,Sohu的FLOPS利用率超过90%(相比GPU的约30%)。

软件运作

在GPU和TPU上,软件非常复杂。处理任意的CUDA和PyTorch代码需要极其复杂的编译器。第三方AI芯片(AMD、Intel、AWS等)在软件上花费了数十亿美元,但收效甚微。

由于Sohu只运行变压器,所以只需为变压器编写软件!大多数公司使用特定的变压器推理库,如TensorRT-LLM、vLLM或HuggingFace的TGI。

Etched将成为第一

如果这个赌注现在看起来很疯狂,想象一下在2022年做出这一赌注的情景。当时,ChatGPT还不存在!图像和视频生成模型是U-Nets,无人驾驶汽车由CNN驱动,变压器架构还远未普及。

幸运的是,局势已经向Etched倾斜。每个领域的顶级模型——从语言到视觉——现在都是变压器。这一收敛不仅验证了Etched的赌注,也使得Sohu成为本十年最重要的硬件项目。

如果Etched赌对了,Sohu将改变世界。AI模型一夜之间变得快20倍且便宜,这会带来什么?Gemini需要超过60秒来回答一个视频问题,编码代理的成本比软件工程师还高,视频模型每秒只能生成一帧,甚至OpenAI在ChatGPT用户达到1000万时也耗尽了GPU容量,这只是世界的0.15%。

但有了Sohu,这一切将变得即时。实时视频、通话、代理和搜索将真正实现。

很快就能见证这些变化。申请Sohu开发者云的早期访问 (https://docs.google.com/forms/d/e/1FAIpQLSfNy_O_4UHUjzCgcEbYR5IEd2bSkkGpLbiw1i51BpWHMW3GwA/viewform),共同解决当代最重要的问题。

更新时间 2024-07-01