中国DPU行业发展白皮书（2021）-轻识

伴随着数据中心的高速发展，通信能力和计算能力成为数据中心基础设施中的两个重要的发展方向。随着网络传输带宽的增加，数据中心的计算资源被愈加复杂的基础设施操作所占据，使得业务处理遭遇瓶颈。DPU的提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。DPU对数据中心来说，是通过更明细的分工来实现效率的提升、实现总体系统的成本最优化。

2021中国DPU行业发展白皮书 共分4章内容，包括智能网卡的简介及趋势分析、DPU的简介及分析、DPU产业分析及NVIDIA的DPU前景展望等。

第一章为智能网卡的简介及趋势分析。该章节介绍了智能网卡的发展背景，并与通用网卡的框架做对比，介绍了网卡及智能网卡的技术差别，对比了各种智能网卡不同实现的技术要点，分析了智能网卡发展的优劣势，引出了DPU在数据中心的发展。

第二章为DPU的简介及分析，介绍了DPU的发展背景和DPU的定义，对DPU介绍并分析了其优势和未来技术发展路径。并从NVIDIA BlueField-3 DPU产品技术特点、产业定位分析、技术优势分析、和技术对比等方面综合介绍了NVIDIA BlueField-3 DPU产品技术情况。

第三章为DPU的产业宏观分析，分别列举出目前市场上主流产品的产品技术特点，分析了DPU行业的市场竞争格局，概述了DPU应用市场的发展现状，研究了DPU行业的发展趋势，展望了数据中心的未来前景。

第四章为NVIDIA DPU的前景分析，从结构通用化、功能多样化、应用广泛化，场景丰富化四个方面对NVIDIA DPU的前景进行了相关分析与展望。

（一）智能网卡发展背景及技术简介

1、智能网卡发展背景

网卡（Network Interface Card，简称NIC）是将电脑接入局域网的设备，网卡插在计算机主板的总线插槽中，负责将用户要传递的数据转换为网络设备能够识别的格式，通过网络介质传输。

智能网卡（Smart NIC），也称智能网络适配器，除了能完成标准网卡所具有的网络传输功能之外，还提供内置的可编程、可配置的硬件加速引擎，提升应用的性能和大幅降低CPU在通信中的消耗，为应用提供更多的CPU资源。例如，在高度虚拟化的环境中，主机CPU需要运行OVS（Open Virtual Switch）相关任务，同时CPU还要处理存储、数据包的在线加解密或离线加解密、数据包深度检查、防火墙、复杂路由等操作，这些操作不仅消耗大量的CPU资源，同时由于不同业务之间的CPU资源争夺，导致业务的性能不能发挥到最佳。

网卡作为连接各种业务的枢纽，在网卡上对于上述业务进行加速，成为了最理想的场所。智能网卡的出现，为解决这个问题提供了新的思路，我们可以通过智能网卡来将OVS操作从CPU卸载下来，并完成存储加速、数据加密、深度包检测和复杂路由等各种功能，将花费在处理这些工作负载上的大量的CPU周期返回给主机CPU，同时解决了不同业务之间的冲突问题，大幅提升了各项业务的性能，也确保了服务器CPU能为应用提供最大的处理能力或者提供更多的虚拟机（VM）服务，创造更大的价值。

2、网卡及智能网卡技术简介

（1）网卡架构技术特点

网卡的架构如图所示，一个典型的NIC由一个处理网络流量的处理器、一对处理数据移动的DMA引擎和一个用于缓冲区和Doorbell的本地存储器（通常是RAM）组成。

（2）智能网卡架构技术特点

智能网卡是具有独立的计算单元，能完成特定的基础设施功能操作的网卡，如智能网卡可完成特定的重组加速、安全加速等操作，相对于普通网卡可以带来较大的性能提升。智能网卡上的可编程ASIC或FPGA单元有可以运行自定义软件的计算层，计算层可以为网络流量提供服务，并可以执行特定网络及数据中心基础设施功能，还为外部网络和服务器OS之间提供了额外的安全层（也就是将安全保障由ToR交换机转移向了该设备）。

（3）各种智能网卡实现的技术要点对比

目前的智能网卡有ASIC、FPGA和片上系统（SoC）三种实现。

不同实现方式的智能网卡在成本、编程的简易性和灵活性方面存在各种权衡。ASIC非常具有成本效益，可以提供最佳的性价比，但它的灵活性受ASIC中定义的功能的限制。

基于FPGA智能网卡则可以在可用逻辑门约束范围内，花费足够的时间和成本来相对有效地支持几乎任何功能。但FPGA编程简易性较差且价格昂贵。对于更复杂的、更广泛的用例，基于SoC（如NVIDIA的BlueField DPU）提供了最佳的智能网卡实施选项：良好的性价比、易于编程且高度灵活。

（二）智能网卡的优劣势分析

智能网卡为数据中心网络提供了几项重要优势，包括：

1) 对于运营大型数据中心的公共云服务提供商而言，智能网卡可以释放CPU核来为最终用户运行业务应用程序，从而可能实现更高的服务器利用率。
2) 各种基础设施操作卸载。例如RDMA融合以太网(RoCE)、传输控制协议（TCP）、NVMeoF（NVMe-over-Fabrics）、互联网安全协议（IPSec）、安全传输层协议（TLS）、深度报文检测（DPI）、OVS（Open Virtual Switch）等。
3) 某些类别的智能网卡是可编程的，可以针对广泛的应用程序进行定制，并且可以重新组装以满足新的要求。

智能网卡并非没有缺点，在智能网卡被更广泛的采用之前，需要解决以下问题：

1) 与标准网卡相比，智能网卡的价格显着溢价。考虑到相同的端口速度，溢价可能会影响智能网卡的普及，尤其是在批量生产时需要降低价格。
2) 智能网卡的功耗较普通网卡高，一般20W~80W，随着更多功能的集成，功耗也会越来越高。
3) 鉴于智能网卡上支持的功能越来越多，其可编程性和复杂性也越来越高，它们可能会消耗大量工程资源来进行开发和调试，从而导致实施时间长且成本高。

基于以上考虑，主要的云服务提供商和网卡供应商已经基于不同的解决方案开发了智能网卡：基于ARM的SoC、FPGA和定制ASIC。这些解决方案中的每一个都提供不同程度的卸载和可编程性，本文中将会对于不同的实现进行对比。

在智能网卡发展的过程中，NVIDIA将智能网卡升级为DPU（Data Processing Unit）。DPU延续了智能网卡的基本功能，并将通用工作任务做了加速处理。如图4所示，相比智能网卡在数据层面上实现加速，DPU的最大的区别是能在实现智能网卡的功能的基础之上实现控制面的加速。

（三）DPU发展背景与定义

1、DPU发展背景

随着数据中心的高速发展，通信能力和计算能力成为数据中心基础设施的相辅相成的两个重要发展方向。若数据中心仅关注计算能力的提升，通信基础设施的提升跟不上，那么数据中心的整体系统性能依然受限，无法发挥出真正的潜力。DPU的提出背景就是应对这些数据量和复杂性的指数级增长。未来，需要将计算移至接近数据的位置，这是目前业界所公认的以数据为中心的体系结构下的创新。综上，DPU对数据中心来说，是通过更明细的分工来实现效率的提升、实现总体系统的成本最优化。

2、DPU定义及综述

DPU（Data Processing Unit）市场仍处于百家争鸣的早期发展阶段，各家厂商定义略有不同。目前市场上主流的DPU定义是NVIDIA提出的，即DPU是集数据中心基础架构于芯片的通用处理器。它结合了：

1) 行业标准的、高性能及软件可编程的多核CPU，通常基于已应用广泛的ARM架构，与其它的SoC组件密切配合。
2) 高性能网络接口，能以线速或网络中的可用速度解析、处理数据，并高效地将数据传输到GPU和CPU。
3) 各种灵活和可编程的加速引擎，可以卸载AI、机器学习、安全、电信和存储等应用，并提升性能。
4) 具备开放性集成功能，未来支持更多功能集成。例如NVIDIA计划未来在Bluefield-4产品中，将GPU集成至DPU中以完成数据中心的架构的终极整合。
5) NVIDIA DPU的软件开发包DOCA，提供了统一的面向各种应用的编程接口，让用户可以不用关注DPU的底层硬件接口而直接对硬件进行编程。

DPU的出现实现了以数据为中心的业务和基础设施操作的分离，大幅降低了业务的长尾延时，对于实现安全的、裸性能的、云原生的下一代大规模计算至关重要。

（四）DPU优势及发展趋势分析

（1）DPU实现了业务与基础设施的操作分离

DPU将基础设施任务从CPU转移至DPU，释放CPU的资源，使更多的服务器CPU核可用于运行应用程序，完成业务计算，从而提高服务器和数据中心的效率。如通过在DPU上运行OVS，使业务域和基础设施域分离，实现VM和VM间的高效安全通信，如图6所示，传统应用场景中会使用CPU来执行OVS操作，其效率较低，消耗CPU核较多，且VM之间的通讯延时较长。Red Hat在部署了DPU后，用DPU来执行同样的OVS操作，其效率大幅提升，几乎不消耗CPU核，VM之间的通讯延时也得到了大幅缩减，大幅减少了长尾延时，从而提升了应用的性能。

（2）DPU卸载网络数据实现性能提升

DPU针对云原生环境进行了优化，提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。如图7所示，红帽Red Hat的容器化云平台即服务（PaaS）OpenShift上，借助DPU优化数据中心资源利用率，将网络相关的数据处理（如VxLan和IPSec等）卸载到DPU加速执行，在25Gb/s网络条件下，OpenShift部署DPU用来加速，可以只用1/3的CPU占用了来达到25Gb/s性能，而在100Gb/s网络条件下，未部署DPU的场景将达不到100Gb/s网络线速，DPU可以带来10倍的性能优势。

（3）DPU可以提供零信任安全保护

零信任（Zero Trust）是一种以安全性为中心的模型，其基于以下思想：企业不应对其内外的任何事物授予默认信任选项。零信任可以减少数据泄露、拒绝未授权的访问，因此在数据安全方面价值巨大。DPU可以为企业提供零信任保护，通过将控制平面由主机下放到了DPU，实现主机业务和控制平面的完全隔离，数据将无法进行穿透，保证安全性。DPU的出现相当于为每个服务器配备了一台“计算机前的计算机”以提供独立、安全的基础设施服务，并与服务器应用域安全隔离。如果主机遭受入侵，安全控制代理与被入侵主机之间的DPU隔离层可防止攻击扩散至整个数据中心。这样DPU就解决了企业不愿直接在计算平台上部署安全代理的情况。通过在完全隔离于应用程序域的DPU上部署安全代理，企业不仅能获得对应用程序工作负载的可见性，还能在其基础设施中执行一致的安全策略。

（4）DPU助力实现“算存分离”

DPU的BlueField SNAP技术方案通过在服务器系统的数据入口处引入计算资源，在DPU上独立实现面对应用需求的存储方案，帮助存储厂商在数据中心中低成本地灵活部署、升级高级存储协议，而完全不需要对现有软件栈进行任何更改。

存储厂商可以把自家团队为各行业应用开发的开放系统的直连式存储(DAS)、纵向扩展（Scale-UP）、横向扩展（Scale-OUT）、超融合架构（Hyperconverged）等存储解决方案，零开销地推广到各个应用领域的现有业务处理平台和数据中心基础架构中，而所有的安全加密、数据压缩、负载均衡等复杂又必须的功能则完全由DPU透明地卸载。存储行业的革新算法和实现，可以在DPU架构中，独立于服务器操作系统进行部署。DPU技术帮助存储厂商实现真正的“算存分离”，完全发挥自家产品的技术优势，打通最高效服务应用需求的通路。

目前DPU以数据为中心作为计算架构，能针对数据中心的安全、网络、存储、AI、HPC等业务进行加速。从DPU概念的提出者NVIDIA的现有技术发展趋势来看，未来的技术发展趋势将会是高度集成化的片上数据中心的模式（Data Center Infrastructure on a chip），即一个GPU、CPU、DPU共存的时代。

NVIDIA布局的数据中心从核心到边缘（Edge）都采用了统一的一个计算架构——CPU、GPU、DPU，如图所示，形成了“3U”一体架构。3U一体的统一计算单元架构将会让管理程序、调度程序都会变得非常容易。通过CPU、GPU、DPU之间的协调计算，可以在数据中心和边缘端都可以达到高性能与高安全性。

更多DPU行业分析，请参阅白皮书《2021中国DPU行业发展白皮书》。本白皮书内容共分4章内容，包括智能网卡的简介及趋势分析、DPU的简介及分析、DPU产业分析及NVIDIA的DPU前景展望等。

下载链接：

2021中国DPU行业发展白皮书

CCIX缓存一致性互联技术概述

ARM CPU处理器资料汇总（1）

ARM CPU处理器资料汇总（2）

ARM系列处理器应用技术完全手册

CPU和GPU研究框架合集

异构芯片研究框架合集

来源：智能计算芯世界