智能网卡萌发的主要原因为CPU算力相对网络传输速率的差距持续扩大,激发网络侧专用计算需求,且智能网卡可搭载多元化功能如虚拟交换、存储、数据、网络加密等。本文来源头豹“2021中国智能网卡(SmartNIC)行业概览”,包括智能网卡行业综述、行业产业链、行业驱动因素、智能网卡行业壁垒以及智能网卡企业介绍。CPU算力增长速度与数据中心网络传输速率增长速度差距逐渐拉大,催生了智能网卡的需求。后摩尔时代下,CPU算力无法按照摩尔定律增长,提升遭遇瓶颈,而数据中心网络向高带宽和新型传输体系发展,其网络传输速率迈向100Gbps,且未来快速向200Gbps与400Gbps发展。智能网卡作用为灵活卸载CPU不适合的处理任务,满足数据平面网络处理需求并兼容现有网络协议生态。其核心作用在于减轻CPU算力负担并让其处理更重要的任务。而传统的网卡仅负责数据链路的传输、网络堆栈算法和协议,其他如存储、网络加解密和安全等功能会占用大量CPU资源。智能网卡理论上可基于FPGA、MP与ASIC三类核心处理器进行设计,而已商用的智能网卡产品形态为"ASIC+GP"和"NP+GP",基于不同核心处理器的智能网卡类别及其特点。全球智能网卡行业未来五年新增市场规模逐步攀升,主要得益于智能网卡方案的逐步成熟,叠加全球通用服务器出货量的稳定增长以及L3级别智能驾驶汽车的技术落地。中国智能网卡行业在2023-2025年迎来高速增长,主要得益于新一轮服务器在网更新周期及各类云应用普及率的提升中国智能网卡新增市场规模及预测。中国互联网+云计算厂商更偏好采用中国自研的智能网卡产品,而非北美厂商如lntel、NVIDIA、Broadcom等,但中国厂商在技术上与北美厂商存在较大差距,且中国厂商缺乏商用经验,其产品大多停留在实验室阶段,量产存在困难。同时,不同厂家技术方案差异化巨大,导致服务器升级改造时易出现硬件不兼容的情况。智能网卡产业链为从上游软件侧EDA、IP核、硬件侧的制造和封装到中游智能网卡的集成和供应,再到下游云计算、通信和智能驾驶领域的应用。EDA工具软件可分为芯片设计辅助软件、可编程芯片辅助设计软件、系统设计辅助软件等。Synopsys、Cadence、Mentors约占全球EDA市场份额的80%,占中国市场份额的90%。IP核将一些在数字电路中常用但较为复杂的功能块设计成可修改参数的模块,主要有三种存在形式∶ HDL语言形式,网表形式和版图形式。ARM占全球IP核市场份额的40.8%。智能网卡上游EDA软件主要应用在可编程逻辑芯片设计中,其市场已在全球范围内形成较为成熟的竞争格局, EDA三巨头通过兼并收购持续扩大规模并占据全球80%市场份额。EDA软件主要应用在可编程的逻辑芯片设计中,如FPGA芯片的设计。其设计流程主要为7个步骤,分别为设计准备、设计输入、功能仿真、逻辑综合、布局布线、时序仿真、编程下载与硬件测试。整个芯片设计流程需要用到的EDA工具有设计输入编辑器、仿真器、HDL综合器、适配器和编辑器。整个过程需要不停低迭代,直到通过功能仿真和时序仿真验证。EDA软件行业在全球范围内已形成成熟的竞争格局,三大EDA巨头Synopsys、Cadence和Mentor占据全球80%的市场份额。三大EDA巨头总体在逻辑综合工具、时序分析工具、模拟/混合信号定制化电路、版图设计、布局布线工具相较于其他EDA软件开发商有着绝对的优势。智能网卡上游封测环节为集成电路制造的后道工序,对提升智能网卡芯片的稳定性及制造水平尤为关键。未来高端集成电路国产化替代空间大,中国本土封测厂商市占率有望提升。封测为IC制造的后道工序,分为封装和测试,是提高IC稳定性及制造水平的关键工序。封装环节是将引线框架上的集成电路焊盘与引脚相连接以达到稳定驱动集成电路的目的,并用塑封料保护集成电路免受外部环境损伤;广义半导体测试工艺贯穿IC设计、制造、封测三大过程,包括验证设计、晶圆检测(CP)和封测环节中的成品检测(FT)。智能网卡产线的萌生受到数通市场需求的强驱动,其将网络、存储、操作系统中需要高性能的数据平面卸载到智能网卡以降低"数据中心税",让CPU集中精力于客户的应用程序。数据中心是进行大规模计算、海量数据存储和提供互联网服务的基础设施。近年来,人工智能和大数据的兴起对算力的要求激增,然而,在后摩尔定律时代,CPU算力增长放缓,需要新的体系结构以增强其算力、网络传输等方面的性能。同时,相比数据中心,云数据中心的应用类型和用户交互方式更丰富,硬件更加定制化。资源虚拟化、分布式计算、定制化计算和细粒度计算是云数据中心的四大趋势。在四大趋势下,从虚拟网络、网络功能、操作系统和数据处理四个方面产生的除用户应用程序外的"数据中心税"不仅浪费了 CPU资源,还导致应用程序无法充分利用硬件的低延迟和高吞吐量。将虚拟网络、网络功能、操作系统和数据处理等功能卸载至智能网卡上进行处理,对现代数据中心的性能和成本有重要意义。数据中心分布式计算催生了高性能数据中心网络,而虚拟化、网络功能、操作系统和数据结构处理伴随着巨大性能开销。 数据结构处理中,键值存储通常基于哈希表实现,高性能键值存储系统的数据中心税吞吐量瓶颈可归因为键值操作中的计算和随机存储器访问中的延迟。基于 CPU的键值存储需花费CPU周期来进行键比较和哈希槽计算,KV-Direct可将键值处理从CPU移动到智能网卡上进行。基于虚拟交换机的网络虚拟化模型中,虚拟机发送和接收的每个数据包都需要由虚拟交换机(vSwitch)处理,与非虚拟化环境相比,这种额外的主机处理会降低性能和吞吐量,增加平均延迟,并增加CPU的使用率。虽然软件实现的虚拟交换机和网络高层次虚拟化功能可以使用更多数量的CPU核来支持更高的性能,但这会加大资产和运营成本。把硬件资源抽象成顺序读写的套接字连接。存储被抽象成文件系统。对于分布式应用程序普遍使用操作系统中的套接字原语进行通信,而对于HTTP负载均衡器、DNS服务器、 Redis键-值存储服务器等通信密集型的应用程序,操作系统占用了50%至90%的CPU时间,大部分用来处理套接字操作。数据中心低延时、高带宽的网络服务,以及虚拟网络转发性能提升的迫切需求驱动着智能网卡的发展,在网络协议和硬件卸载等方面为CPU释放宝贵资源。智能网卡作为一种有编程能力的网卡,可以快速处理网络协议,提供高效的网络I/O。传统的网卡仅支持标准以太网或Infiniband中的一种网络协议,而智能网卡除了传统 TCP/IP协议,还支持RoCE v1/v2、iWARP等加速数据通路的协议,进而从CPU上卸载更多网络协议处理到网卡上,在数据中心中也能提供低延时、高带宽的网络服务。云计算场景下的虚拟化技术需要靠软来实现Hypervisor,但伴随巨大的性能开销。虚拟机和物理机仍存在较大的性能差距,阿里云和亚马逊等云厂商将虚拟化、网络、存储等相关组件卸载到智能网卡上,从而消除虚拟化、网络和存储组件带来的开销,提高虚拟机的性能。5G技术要求网络实现"大容量、大带宽、大联结、低延迟、低功耗"驱动了智能网卡在边缘机房部署的可能。在当前网络架构中,核心网部署在远端,传输时延较大,且无法满足5G时代下数字化和智能化对算力的高要求。为了分担终端算力,将算力向云端移动,同时为了降低时延,将业务向边缘移动。MEC部署在网络边缘, 可以减少数据传输过程中的转发和处理时延,并降低终端成本。但随着各种业务和应用汇聚在边缘端,导致MEC边缘云的计算开销激增,而边缘机房的供电、散热及承重能力有限,无法通过堆加大量的X86 CPU来提升算力,且 CPU性能已无法按摩尔定律增长。中国智能网卡厂商硬件性能较国际巨头差距较大,落后原因为技术积累不足以及上游EDA和先进制程工艺被外国掌控;智能网卡软件行业进入门槛较低,但中国本土企业创新速度同样落后于国际巨头智能网卡硬件壁垒。中国网络芯片的传输速率落后国际巨头1-2代,停留在10Gbps。中国网络芯片时延为5ms左右,与国际巨头NVIDIA和Boradcom的网络芯片时延高2-4ms。落后的主要原因为高传输速率的网络芯片是基于调制解调模型QAM完成的,而中国本土企业对OAM算法优化程度不足,难以开发高速率网络芯片;另外,25/40Gbps的网络芯片采用的是10/14nm制程工艺,研发周期超过2年且研发成本超千万,初创企业难以负担。中国处理芯片如FPGA门级数停留在千万级,制程为28nm,而国际巨头FPGA先进制程为7/10nm,门级数过亿。落后的主要原因为中国缺乏EDA工具,不能支持门级数过亿的设计工作,且美国对中国施加EDA出口限制; 另外,14nm处理芯片产线开工成本高、若无一定订单量支撑,芯片代工厂难以投产。智能网卡功能的实现如VxLAN、RDMA、DPI等功能的开发难度相对较低,只需要研发团队对汇编语言和底层协议熟悉即可,但功能的创新研发速度相比国际巨头至少落后半年,市面上的硬件与虚拟操作系统版本众多,智能网卡企业难以做到同时兼容所有版本。全球可编程图形处理技术领袖,是GPU(图形处理器)的发明者,也是人工智能计算的引领者。英伟达2020Q1营收同比增长83.8%,游戏业务和加密货币为主要推动因素。英伟达2021年Q1营收为56.6亿美元,同比增长84%。英伟达拟以400亿美元收购Arm,Am的芯片设计IP被广泛应用于各类终端市场,在全球移动芯片市场中,Arm架构占比超过九成。收购Am可让英伟达利用其数据中心智能网卡方面的领先地位,开创一个基于Arm架构的服务器解决方案新时代,但目前此笔收购存在巨大不确定性。数据中心业务连创新高英伟达自收购Mellanox以来,其数据中心产品表现强劲,下游客户对以太网和InfiniBand需求旺盛。数据中心业务已连续6季度营收创历史新高。半导体行业和计算创新领域的全球领先厂商,其SmartNIC C5020X和N5010智能网卡可将交换、存储和安全等功能从服务器CPU上卸载并释放CPU资源,提升数据中心性能。英特尔微处理器包括ltanium,Xeron,PentiumⅢ及Celeron等著名的品牌。英特尔公司业绩整体表现疲软,主要原因为上游云厂商库存去化和资本开支放缓,以及政企客户需求降低。针对数据中心的10nm至强可拓展处理器IceLake也进入交付阶段。英特尔2021年Q1营收为196.7亿美元,同比下降0.78%。英特尔针对数据中心研发的最强数据中心处理器Ice Lake正式发布并进入交付阶段。其采用10nm制程工艺,并搭配英特尔傲腾持久内存与存储产品组合、以太网适配器、以及FPGA和经过优化的软件解决方案,可在数据中心、云计算、5G和边缘计算等领域提供强大的性能与工作负载优化。全球领先的有线和无线通信半导体公司,前身安华高科技(Avago Technologies)收购芯片制造商博通公司(Broadcom);其智能网卡BCM58800采用了TruFlow技术,可在硬件上卸载OvS以及实现SDN等功能。博通主营构成为有线基础设施和半导体及相关产品,销售毛利率稳步上升,其在路由器和交换机芯片市场份额第一,但在服务器处理器布局较少。博通2021年Q1营收 为132.65亿美元,同比增长14.35%。博通业绩增长的原因之一或为在半导体领域多次并购整合优质资源后显现成效。博通在路由器与交换机芯片市场份额第一,但在服务器处理器的布局较少。博通发挥自身在网络解决方案的优势,抢夺智能网卡市场,填补其在服务器处理器空白。
中国数据处理器行业概览(2021)
DPU在数据中心和边缘云上的应用
英伟达DPU集数据中心于芯片
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。
获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。