大模型落地：GPU向上，NPU向下

自从ChatGPT问世以来，大模型取得了迅猛的发展。不仅是在ChatGPT本身这一自然语言处理领域取得了重要进展，而且在视频领域也有令人瞩目的大模型，比如DINOv2，它可以对视频图像进行语义理解。此外，SAM是一种能够对场景进行细粒度分割的模型。这些进展显示出我们正处于一个新的范式拐点，即大模型无处不在。

与此同时，主流的大模型架构——Transformer架构，也在ChatGPT的成功应用后引起越来越多的关注。许多研究和应用领域开始将传统的卷积神经网络（CNN）转向Transformer架构。

在大模型的落地应用方面，目前主要集中在云侧，依赖GPU提供算力，所带来的影响和冲击波巨大。想象一下，如果大模型能够在边缘侧和终端侧进行部署，那将推动智能应用的大力普及和发展，为用户和企业带来更多的便利和价值。想象一下，每个人在打开手机或终端时，就能轻松获取医生、律师、厨师等专业知识，这将是可能的。

长远来看，实现在边缘侧和终端侧部署大模型也将是未来的发展方向。然而，要在端侧和边缘侧高效地部署Transformer，我们需要思考使用何种技术和资源。是否继续依赖GPU？或者采用其他更适合边缘侧和终端侧的解决方案。

Transformer架构：大模型的最佳选择

任何一个数字系统或者是复杂的场景都可以分为信息系统、模型系统和行动系统这三大部分：信息系统是整个系统的基础，它负责从外部或内部收集信息，并将其传递给其他组件进行处理或决策；模型系统是在信息系统的基础上构建的，它使用收集到的信息，并运用算法、机器学习或其他技术来进行分析、预测或决策；行动系统接收来自信息系统和模型系统的输出，并根据其进行实际的操作、决策或执行。

模型系统成为现代技术和商业应用的重要组成部分，模型系统带来的好处有哪些？一个非常直观的具象例子，陆奇博士在近日《新范式新时代新机会》主题分享中谈到，在互联网不发达的时候，买一张地图需要3美元，信息获取的成本相当高，现在，我们只需要打开导航就可以轻松获取所需要的信息。这就是信息系统所带来的变化。在模型系统这里，ChatGPT也是起到类似的作用。诸如ChatGPT这样的大模型应用，某种程度上就是相当于封装了各行各业的知识或具体任务的方法。大模型的诞生将大幅降低我们获取知识的成本。

所有这些大模型本质上都是经过预训练的模型，而且大都是基于Transformer架构。Transformer和CNN都是深度学习中常用的神经网络架构。与CNN不同，Transformer模型引入了自注意力机制（self-attention mechanism），使得模型能够在处理序列数据时捕捉到更长距离的依赖关系，从而更好地建模语义信息。需要指明的是，尽管Transformer在计算机视觉领域取得了一些成功，但CNN仍然在许多领域中表现出色，尤其是在处理具有空间局部性和平移不变性的图像数据时。因此，目前CNN仍然是许多计算机视觉任务的首选模型。

Transformer架构最初被广泛应用于自然语言处理领域，尤其是在机器翻译任务中取得了重大突破。随着Transformer的成功，人们开始投入更多的资源将其应用于计算机视觉（CV）领域。研究者们发现，在一些计算机视觉任务中，如图像分类、目标检测和图像生成等，使用Transformer模型可以取得与或甚至超过传统的CNN模型相媲美的性能。此外，由于Transformer模型的并行计算能力和扩展性较好，它还被应用于处理高分辨率图像和视频等大规模数据的任务中。

要想在边缘侧和终端侧实现大模型应用，也势必将要部署Transformer。不同于云端，在边缘侧和端侧部署Transformer模型面临的最大挑战之一是功耗。功耗的问题需要从两方面来解决：一方面是从算法侧入手，需要在算法侧通过剪枝、量化和低比特等技术进一步优化和压缩大模型，以减少其计算和存储需求，从而降低功耗。另外一个在硬件层面，考虑到GPU的成本和功耗，行业需要寻找更高效的硬件加速器和低功耗的芯片设计，提供高效的计算能力。

AX650N成为端侧、边缘侧Transformer最佳落地平台

2023年3月，爱芯元智推出了第三代高算力、高能效比的SoC芯片——AX650N，依托其在高性能、高精度、易部署、低功耗等方面的优异表现，AX650N受到越来越多有大模型部署需求用户的青睐，并且成为业内首屈一指的Transformer端侧、边缘侧落地平台。

为什么说AX650N是业内最佳Transformer落地平台呢？目前行业一般采用SwinT网络作为衡量Transformer的一个基本指标。在爱芯元智AX650N上跑SwinT网络，可以达到361FPS的高性能、80.45%的高精度、199 FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力，这四大能力都让AX650N在Transformer的落地中具有领先的优势地位。

首先，361帧的高性能可以媲美英伟达自动驾驶领域的AGX平台（大约跑400帧以内），而且在成本方面具有很大的优势；其次，每瓦199帧体现了低功耗，相比NVIDIA的AGX整体的TDP大概是15到60瓦；最后，对客户来说，易部署也是其很大的卖点，GitHub上的原版模型可以AX650N上运行，不需要对模型做修改，不需要QAT重新训练，而且可以达到80.45%的高分类正确率，这高于市面上的平均水平。

AX650N不仅仅可以运行SwinT网络，AX650N还已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型。AX650N运行DINOv2大模型能达到30帧以上运行结果，这也使得用户在下游进行检测、分类、分割等操作更加方便。

在模型压缩方面，前文中我们提到了一些在算法层面的压缩方法，如剪枝、稀疏等，爱芯元智联合创始人、副总裁刘建伟指出，低比特也是压缩模型的一个方法，而且是对硬件最友好（便宜）的方式。在这方面，AX650N支持低比特混合精度，如INT4。这样的好处在于，一般大模型的参数是比较大的，如果能采用INT4，可以极大地减少内存和带宽占用率，有效控制端侧边缘侧部署的成本。

“为什么我们会对Transformer支持比较好，简单概括就是我们有一个全面优化的设计，还有一个高性能的多核架构。我们的NPU在设计初期采用了异构多核的结构，其中包含一个具有一定可编程性的核，这为Transformer网络的使用提供了灵活性。同时，在设计过程中我们也考虑到了某些网络对数据需求量较大的情况，并在架构上进行了一些预留。这样的设计使得我们的Transformer在运行时表现得相对较快。

最终从客户的体验来看，客户能够体会到我们平台是比较好用、易用，好用是性能比较高，它能够实时跑更多的应用，对场景的适应性比较强；易用是他上手速度比较快，客户最终接触到的是一个软件界面，只需将他们的模型以标准的ONNX格式导入我们的软件，就可以做一些编译的操作，量产周期也能缩短。”爱芯元智相关负责人指出。“有客户反馈，拿到我们的开发板和文档，基本上一个小时就能够完成demo的复现以及他们自己的私有网络在板子上运行。”

为了能够便于对Transformer感兴趣的同学、工程师以及开发人员能够开发深度研究，探索更丰富的产品应用。爱芯元智正在开发基于AX650N的爱芯派Pro开发板。

综上，无论是从性能还是部署这两方面来看，爱芯元智的AX650N平台正在成为业内首屈一指的Transformer端侧、边缘侧落地平台。

端侧和边缘侧AI应用迈上一个新台阶

在端侧和边缘侧加速AI应用一直以来都备受关注。特别是在一些标准化的应用领域，如人物识别、车辆识别和车牌识别等，目前已经取得了显著的成果，因为这些需求非常迫切。然而，在更通用的场景中，智能技术的效果并不是特别出色。换句话说，在这些场景中，要想实现良好的效果，通常需要进行更加针对性的投入。然而，由于客户可能不愿为此支付过高的成本，这导致了在更通用的应用场合中，智能技术的落地进展并不顺利。

但现在，随着在大型预训练模型的崛起中，我们看到了边缘场景中AI智能成本降低的希望。这些模型可能不再需要对每个细分场景进行全面定制，而是通过将预训练的大型模型应用于特定场景，便能取得出色的效果。“虽然大家已经看到了这些模型能够解决一些长尾问题，但要在实际场景中完全实现落地，我认为还需要一些时间。不过未来在AI端侧和边缘侧，我们可以预见AI应用将迈上一个新台阶。”爱芯元智相关负责人表示。

ChatGPT爆火之后，国内关于大模型应用的开发如火如荼，不夸张地说已经进入“百模大战”。一旦这些模型开始商业化，成本效益必然成为一个关键诉求。刘建伟表示：“最初提到的训练模型可能都是基于GPU，但在实际落地时，为了降低成本，则采用更高能效比的解决方案。这样才能最终实现对用户来说获取大模型知识接近于免费或者成本很低，而整体运营成本则集中在提供大模型的一方。这也是大模型提供方必然对成本向下诉求的原因。因此，随着时间的推移，我们将努力不懈地在基础路线上改进，并提供更高效的部署平台。”

对此，爱芯元智创始人、CEO仇肖莘女士指出，爱芯元智将在成为人工智能算力平台型公司的道路上继续探索，加速基于Transformer的大模型在端侧、边缘侧落地的节奏，“爱芯元智将继续努力打造基于芯片+软件的端侧、边缘侧人工智能算力平台，让智能落实到生活的真实场景，最终实现普惠AI造就美好生活的企业愿景”。

写在最后

在这个即将到来的大模型时代，“GPU向上”意味着GPU更加适用于云侧等高性能计算场景，“NPU向下”代表NPU使用趋势是向更低功耗、边缘设备上的应用方向发展。GPU与NPU将是大模型应用落地的双重引擎。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

?有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】?

?AI大模型学习路线汇总?

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

?大模型实战案例?

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

?大模型视频和PDF合集?

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

?学会后的收获：?

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

?获取方式：

?有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】?

总结

### 总结文章：《大模型在视频+、AI边缘应用的崛起与突破》
#### 一、大模型的迅猛发展与广泛应用
自ChatGPT问世以来，大模型在自然语言处理及视频处理等领域取得显著进展。DINOv2和SAM等大模型的出现极大推动了视频和图像语义理解的边界。同时，Transformer架构的兴起成为大模型架构的标杆，逐步代替传统的CNN架构，用于各种复杂任务分析中。
#### 二、大模型的部署挑战与未来展望
大模型目前在云侧通过GPU提供强大算力，但部署在边缘侧和终端侧却因功耗问题面临挑战。未来，推动大模型在边缘侧和终端侧的普及将是重要趋势，并需解决功耗优化问题，如通过算法优化（剪枝、量化等）和硬件升级（高效低功耗芯片）来实现。
#### 三、Transformer架构的优势与应用
Transformer架构通过引入自注意力机制，在处理序列数据和语义信息方面有出色表现。虽然在计算机视觉领域中CNN依旧具有一定优势，但Transformer已经开始展现出革命性潜能。尤其在图像分类、目标检测及视频处理方面，Transformer取得了可与CNN相媲美的成绩。
#### 四、爱芯元智AX650N：端侧、边缘侧Transformer的最佳落地平台
爱芯元智推出的AX650N芯片，凭借其高算力、高能效比、易部署和低功耗等优势，成为业内领先的端侧、边缘侧Transformer落地平台。在SwinT网络测试中，AX650N表现了卓越的性能和精度，能有效支持多种Transformer模型的部署。同时，AX650N支持低比特混合精度，大大降低内存和带宽占用，进一步控制部署成本。
#### 五、AI端侧与边缘侧应用的未来展望
随着大型预训练模型的普及，边缘侧AI应用的成本大幅降低，为更广泛的应用场景提供可能性。行业将不再依赖针对每个细分场景的全面定制解决方案，而将预训练的大模型应用于各种场景中，促进AI技术在广泛领域内的落地应用。未来，AI将在端侧和边缘侧迈上新的台阶。
#### 六、爱芯元智的未来战略规划
爱芯元智致力于成为人工智能算力平台型公司，将继续推进基于Transformer的大模型在端侧和边缘侧的落地应用。通过不断优化芯片与软件平台，爱芯元智将为AI算力的普惠应用贡献力量，让智能科技真正惠及生活。
#### 七、读者福利：大模型学习资料
针对对大模型感兴趣的读者，文章末尾还特别提供了详细的零基础大模型学习资料，涵盖学习线路、实战案例、视频教程和PDF书籍等内容，帮助读者全方面、系统性地掌握大模型技术。通过扫描二维码即可免费领取相关学习资料。