当前位置:AIGC资讯 > AIGC > 正文

DDC技术:AIGC网络的革命性解决方案

2023年,人工智能生成内容(AIGC)技术将蓬勃发展,其中ChatGPT作为一个典型案例,在文本生成、代码开发和诗歌创作等多个领域引起行业变革。DDC技术对改变网络格局具有创新和突破性意义,很大程度上提升了效率和连接性。本文将介绍这一AIGC网络的新一代革命性解决方案——DDC技术。

GPU负载共享的三种方法

前述AIGC大型模型的卓越能力不仅来自于其庞大的数据量,也源于算法的不断演进和进步。在训练这些大型模型时,通常需要利用多个GPU来分担工作负载。为实现高效的负载共享,采用3种方法:数据并行、张量并行和流水线并行。

数据并行

数据并行是将模型的输入数据分成多个小批次,并在不同的GPU上并行处理这些小批次。每个GPU拥有完整的模型副本,并能独立处理小批次。通过GPU之间的通信和同步,模型参数得以更新和整合。数据并行适用于具有大规模训练数据集的模型,可以加快训练过程,提高模型的收敛速度。

张量并行

当模型过大无法被容纳在单个处理器的内存中时,通常会采用张量并行方法。在这种方法中,模型的不同部分被分配给不同的GPU,每个GPU负责处理一部分输入数据并执行相应的计算。通过GPU之间频繁的通信和同步,输出结果被收集和整合,但这可能导致较高的通信开销。为了最小化交换延迟,张量并行方法要求处理器之间以高速连接的状态进行通信。

流水线并行

流水线并行将模型的计算流程分解为多个阶段,在不同的GPU上以流水线方式并行执行这些阶段。每个GPU处理整体模型计算的特定部分,并将处理结果传递给下一个GPU进行进一步的计算。这种方法可以减少整体训练时间,对于具有复杂计算流程和多个连续阶段的模型尤其有益。但是需要对流水线进行精心管理,其中一些处理器为避免产生过大的停滞,可能会暂停工作去等待和依赖计算结果。有时,这三种并行策略会结合使用,以改进训练过程。

支持AIGC运行的三种传统解决方案

在传统解决方案中,支持AIGC运行的有3种常见解决方案:InfiniBand、RDMA和帧交换机。

InfiniBand网络

InfiniBand网络是一种高速互连技术,广泛应用于高性能计算和数据中心。它具有高带宽、低延迟和无拥塞等优点。然而,与传统以太网网络相比,InfiniBand网络的成本较高,价格是其几倍。

RDMA网络

RDMA(远程直接内存访问)是一种新型的通信机制。在RDMA方案中,数据可以直接与网卡通信,绕过CPU和复杂的操作系统,这在增强数据吞吐量的同时降低了延迟。过去,RDMA主要在InfiniBand网络上实现。现在,它正在逐步移植到以太网上。当前主流的网络方案是基于RoCE v2协议构建支持RDMA的网络。

请参考《RDMA指南》。

帧交换机

帧交换机是专门设计用于处理基于帧的协议(如以太网)的网络交换机。然而,由于可扩展性有限、设备功耗高和故障域广泛等问题,这种技术仅适用于小规模的AI计算机集群部署。

新一代AIGC网络:DDC技术

由于传统以太网存在性能瓶颈,传统方法仍然面临拥塞和丢包等性能损失,并且可扩展性不足。为应对这些限制,DDC解决方案应运而生。DDC技术解构传统的帧交换机,增强其可扩展性,并使得网络规模可以根据AI集群的大小进行定制。

DDC技术不仅在规模和带宽吞吐方面满足大规模AI模型训练的网络需求,还解决了网络运营其他关键方面的问题。但网络运营不仅仅涉及这两个方面,它还需要在延迟、负载均衡、管理效率等方面进行优化。为了解决这些问题,DDC采用了以下技术策略:

VOQ+基于单元的转发技术抵御丢包

在网络经历突发流量的情况下,可能导致接收端处理缓慢,进而导致拥塞和丢包。DDC系统采用VOQ+基于单元的转发机制,为此提供了强大的解决方案。让我们深入了解具体的过程:

发送端在接收到数据包后,将其分类并存储到虚拟输出队列(VOQ)中。网络连接点(NCP)在分段和动态负载平衡之前检查缓冲区容量。在临时处理限制情况下,数据包被存储在VOQ中,提高了通信稳定性和带宽利用率。

PFC单跳部署避免死锁

RDMA无丢包网络利用PFC技术进行流量控制,可以为以太网链路创建具有分配优先级的多个虚拟通道。然而,PFC的实现在死锁这一问题上仍具有一定挑战。

在DDC网络的背景下,考虑所有的网络连接点(NCPs)和网络通信功能(NCFs)作为一个协同的整体,消除对多级交换机的需求,从而带来了独特的优势。因此,DDC架构有效地避免了与PFC相关的死锁问题,确保了网络的无缝和不间断的运行。

分布式操作系统提高可靠性

在DDC架构中,管理功能在网络控制卡(NCC)的控制下进行集中管理。然而,这种集中控制存在单点故障的潜在风险。为了减轻这个风险,DDC采用了分布式操作系统,为每个网络连接点(NCP)和网络通信功能(NCF)提供独立的管理能力。这种分布式的方法包括独立的控制平面和管理平面,以增强系统的可靠性并简化部署过程。

结论

DDC通过其独特的技术策略有效地应对与大规模AI模型训练相关的网络需求。此外DDC还对其他方面进行优化,以确保网络在各种复杂场景下的稳定性和效率。

更新时间 2024-02-20