1月24日消息,众所周知,开发大语言模型(LLM)成本高昂。这不仅包括模型本身的研发,还有在云端运行这些模型的费用。以人工智能初创公司Anthropic为例,云端运行模型的成本几乎占了该公司上个月收入的一半以上,这还未算上训练模型的成本。
然而,最近的技术进步有望降低大语言模型的开发和运行成本。目前尚不清楚这是否足以将大语言模型开发转变为高利润的软件业务,但它应该有助于缓解许多最紧迫的成本问题。
以Writer为例,这家初创公司专门为企业开发人工智能工具。该公司联合创始人兼首席技术官瓦西姆·阿尔谢赫(Waseem Alshikh)表示,过去三到四个月,一些老式人工智能芯片(如英伟达A100 GPU)的价格不断下滑,帮助他们将模型培训成本降低了约60%。此外,英伟达还优化了软件性能,帮助开发者在这些芯片上更快地训练和运行大型模型。
但与此同时,随着云计算服务提供商推出更多H100芯片,Writer开始使用更多英伟达新款芯片来训练大语言模型。阿尔谢赫指出,这些较新的芯片价格高昂,但在模型训练方面比A100更快。
开发者还利用各种新的培训技术和配置来降低成本。像GPT-4这样的大型语言模型实际上是由多个“专家”模型组成的,而非一个庞大的模型,每个模型专攻不同主题。这种混合专家系统(Mixture of Experts,简称MoE或ME)的计算效率更高,因为查询仅触发模型的某些部分,而非整个模型。
其他技术,如量化和大语言模型的低阶自适应,使得训练和调整模型的成本更低,且对模型性能影响微乎其微。
大语言模型开发者还找到了更高效利用硬件的方法。谷歌研究人员估计,在训练GPT-3时,OpenAI的GPU大约有80%的时间处于闲置状态,等待数据输入。换句话说,它并未充分利用GPU资源。然而,GPU经销商Together的首席科学家特里·道(Tri Dao)表示,通过采用名为FlashAttention-2的不同技术,可将闲置时间缩短至30%左右。众多开发者已开始利用这项技术,包括法国人工智能初创公司Mistral。
尽管人工智能开发人员拥有众多降低成本的工具,但并不意味着他们会全都使用。OpenAI、Anthropic等前沿模型的开发商追求卓越的芯片、人才和数据资源,因此他们可能会暂时搁置利润率目标。
例如,Facebook母公司Meta首席执行官马克·扎克伯格(Mark Zuckerberg)宣布,该公司计划在今年年底前获得3.5万个H100 GPU(总成本超过70亿美元)。这表明,实力雄厚的公司正不惜重金购买尖端芯片,即便老款GPU价格更为亲民。
此外,我们切勿忽视获取新数据以训练大语言模型的成本。像OpenAI和苹果等公司从出版商那里获得内容授权的费用看似微不足道,但未来可能会大幅增长。尽管大语言模型正逐步生成用于新模型的“合成”训练数据,但仍有许多高质量信息是它们无法复制的。