网络规模、训练学习速度提升，清华团队在大规模光电智能计算方向取得进展

随着大模型等人工智能技术的突破与发展，算法复杂度剧增，对传统计算芯片带来了算力和功耗的双重挑战。近年来，以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题，有望实现计算性能的颠覆性提升。

然而，光电神经网络的前向数学模型由对光场的精准物理建模得到，计算复杂度高、参数冗余度大；其学习机制沿用人工神经网络常用的梯度下降算法，面向大规模光电神经网络时优化速度慢、资源消耗高、收敛效果差。因此，现有学习架构仅能支撑小规模光电神经网络的训练，其网络容量和特征捕获能力不足以有效处理 ImageNet 等大型复杂数据集。

近日，清华大学电子工程系方璐副教授课题组提出了面向大规模光电智能计算的：光学-人工双神经元学习架构（DuAl-Neuron opTical-artificial lEarning，DANTE）。其中光学神经元精准建模光场计算过程，人工神经元以轻量映射函数建立跳跃连接助力梯度传播，全局人工神经元与局部光学神经元以交替学习的机制进行迭代优化，在确保学习有效性的同时，大大降低了训练的时空复杂度，使得训练更大更深的光电神经网络成为可能。DANTE 突破了大规模光电神经网络物理建模复杂、参数优化困难等桎梏，网络规模提升一至两个数量级，训练学习速度提升两个数量级。

该研究以《光学-人工双神经元架构训练大规模光电神经网络》（Training large-scale optoelectronic neural networks with dual-neuron optical-artificial learning）为题，于 11 月 4 日发表于《自然·通讯》（Nature Communications）期刊上。

人工神经网络（ANN）无疑是近年来机器智能研究领域中最具代表性的技术。在过去的十年中，随着网络规模、模型参数和数据集大小的增长，人工神经网络在视觉计算、自然语言处理、机器人等各个领域取得了显著的进步。大规模神经网络也给现有的电子计算硬件带来了巨大的压力。由于硅基计算设备的性能和能源效率受到摩尔定律停滞期的限制，研究人员开始将注意力重新转向光学/光电网络。

光学和光电神经网络（ONN）具有固有的高速和高能效特性。其中，衍射神经网络仅通过经过训练的光学调制元件传播编码光来进行计算，可以自然地处理光学图像并实现各种机器视觉任务的光学计算。

然而，现有的衍射神经网络研究主要集中在探索新型光学计算硬件或新的网络结构，而很少关注 ONN 的建模和优化。大多数现有的 ONN 研究仍在努力解决基本任务和小数据集，例如 MNIST 和 Fashion-MNIST 分类。

受限于算力瓶颈与显存容量，现有的单神经元学习方法仅能实现百万量级神经元的光电神经网络训练，难以满足 ImageNet 等复杂大规模数据集的训练需求。

在此，研究人员提出了 DANTE：用于大规模光电机器学习的双神经元光学人工学习。

具体来说，硬件网络由光学神经元层和人工神经元层建模。光学神经元层精确地模拟光场的衍射和调制过程，人工神经元层使用轻量级函数近似计算量大的光学神经元层光学衍射建模。与单神经元学习方法不同，DANTE 通过采用迭代全局人工学习步骤和局部光学学习步骤来解耦所有光学神经元。通过在全局人工学习步骤中引入人工神经元，显著减少了优化空间和计算内存需求，实现了端到端网络学习更快更好的收敛。而在局部光学学习中，光学神经元层的参数是从优化的人工神经元中独立有效地学习的，而不是从海量数据集中学习，这可以进一步加速网络训练。

图 1：光学-人工双神经元学习架构（DANTE）。（来源：论文）

研究人员在空间光智能计算平台上开展了大量仿真与物理实验验证，将现有百万量级光电神经元网络的训练时间从数十小时级缩短到了分钟级。

在模拟实验中，与单神经元学习方法相比，DANTE 在 CIFAR-10 基准上实现了约 200 倍的训练加速，准确率提高了约 10%。

图 2：使用 DANTE 改进 ONN 训练。（来源：论文）

更重要的是，DANTE 能够训练具有 150 M 神经元的大规模 ONN，在现代 ImageNet 基准上实现与代表性 VGG 网络相当的性能。网络规模大约是现有大型 ONN 的 10 倍。

图 3：DANTE 支持的大规模 ONN。（来源：论文）

在物理实验中，研究人员开发了一个两层物理 ONN 系统，能够有效提取特征以增强自然图像的分类（CIFAR-10 和 ImageNet），作为 DANTE 物理可行性的验证。

图 4：物理 ONN 系统上的 DANTE。（来源：论文）

研究人员进一步基于 DANTE，首次实现了亿级神经元的大规模光电神经网络训练与推理，在 CIFAR-10、ImageNet等多个数据集上实现了与经典人工神经网络 VGG-11 和 VGG-16 相当的准确率。

值得强调的是，在 ImageNet 基准上成功训练光电神经网络具有重要意义。这展现了 DANTE 在支撑大规模光电神经网络训练学习上的巨大潜力，有望推动光电智能计算从基于 MNIST 基准的原型验证阶段迈入到使用现代 ImageNet 基准来解决大规模现实问题的全新时代。

图 5：DANTE 在 CIFAR-10 和 ImageNet 数据集上的训练与推理性能评测。（来源：论文）

总之，DANTE框架有效地解决了 ONN 面临的学习挑战，这些挑战源于光学衍射建模中复杂的空间和时间复杂性。因此，该研究在训练大规模 ONN 方面取得了显著的成功，而以前认为使用现有方法不可能训练这些 ONN。

实验结果证明了 ONN 在高级机器视觉任务中的巨大潜力。研究人员坚信，该研究将为大规模 ONN 的训练和部署奠定坚实的理论基础，为 ONN 解决大规模实际问题的新时代铺平道路。

论文链接：https://www.nature.com/articles/s41467-023-42984-y

参考内容：https://www.tsinghua.edu.cn/info/1175/107842.htm