计算重叠 - AIGC资讯

当前位置：AIGC资讯 > 计算重叠

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

随着对Sora技术分析的展开，AI基础设施的重要性愈发凸显。来自字节和北大的一篇新论文在此时吸引关注：文章披露，字节搭建起的万卡集群，能在1.75天内完成GPT-3规模模型（175B）的训练。具体来说，字节提出了一个名为MegaScale的生产系...

大数据 2024-03-01 人工智能
787阅读
拆掉英伟达护城河，细节曝光！世界最快超算用3072块AMD GPU训完超万亿参数LLM

用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。位于美国橡树岭国家实验室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888个MI250X GPU和9472个Epyc 7A53 C...

大数据 2024-01-15 人工智能
789阅读
S-LoRA：一个GPU运行数千大模型成为可能

一般来说，大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是，当针对众多任务（如个性化助手）对 base 模型进行微调时，训练和服务成本会变得非常高昂。低秩适配（LowRank Adaptation，LoRA）是一种参数效率高的微调方法，通常用...

人工智能 2023-11-15 人工智能
786阅读
如何高效训练？综述汇总：大型深度学习训练的并行分布式系统

本文经自动驾驶之心公众号授权转载，转载请联系出处。 23年1月论文“Systems for Parallel and Distributed Large-Model Deep Learning Training“，来自UCSD。深度学习（DL）已经...

AIGC 2023-11-08 人工智能
836阅读

第一页 1 没有了

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

拆掉英伟达护城河，细节曝光！世界最快超算用3072块AMD GPU训完超万亿参数LLM

S-LoRA：一个GPU运行数千大模型成为可能

如何高效训练？综述汇总：大型深度学习训练的并行分布式系统