多样性算力技术愿景白皮书(附链接)

智能计算芯世界

共 6955字,需浏览 14分钟

 ·

2021-04-28 07:06



随着5G、人工智能、云计算、大数据、物联网等新一代信息技术在各行各业广泛应用并取得加 速突破,人类社会已经迎来了数字经济时代。万物互联产生各种各样的数据,数据成为劳动、资 本、土地和技术之外的第5个生产要素,围绕数据分析处理的算力成为新的生产力。行业应用的 多样性带来数据和算力的多样性,没有一种计算架构可以高效满足所有业务诉求。计算密集型应 用需要计算平台执行逻辑复杂的调度任务,而数据密集型应用则需要高效率地完成海量数据并发 处理,这使得单一计算平台难以适应业务要求,计算多样性成为必然。


本文来自“多样性算力技术愿景白皮书”,白皮书内容包括多样性算了现状、发展趋势、挑战、ARM发展策略和方案等方面,下载链接:多样性算力技术愿景白皮书



第一章 前言

传统CPU架构强调高性能单核处理能力,虽能兼容大量指令,但在AI或高计算力需求下,计算 任务执行效率较低,功耗较高不符合绿色节能的发展趋势。以ARM为代表的RISC流派CPU称雄 智能终端侧市场。随着消费侧技术迭代的快周期,ARM在工艺制程取得领先,并在多核并发、高 吞吐等方面优势明显,迅速拓展到数据中心、PC、HPC等应用场景。与此同时,MIPS架构推出 了多款面向桌面应用的产品,基于Alpha架构的中国超级计算拿下多个世界第一,RISC-V的单板 计算机在2021年年初面世。不同计算架构齐头并进,行业呈现出百花齐放的状态。


一个成熟的计算产业,需要丰富多元的软硬件供应体系,并制定芯片、整机、软件等不同层次 一致性的规范来发挥产业规模效应,需要便于应用适配和迁移的工具促进应用发展,需要客观中 立衡量性能的“标尺”牵引技术提升,形成生态型产业布局。本白皮书从需求角度,探究国内多 样性算力发展的现状和问题,以ARM为例,基于电信行业需求,提出技术发展策略建议,并阐述 电信行业引入多样性算力的具体方案和步骤,为业界提供最佳实践参考。我们呼吁凝聚行业力 量,以面向实际应用为导向,同心协力,为世界算力提供更多选择。


第二章 多样性算力产业现状、发展趋势级挑战

2.1  多样性算力产业现状

过去十年云计算技术向各行各业不断渗透,直接带动了数据中心建设的蓬勃发展,根据Synergy Research Group发布的数据显示 ,截至2020年上半年,全球已建成超大型数据中心541个,相 比2015年增长了超过一倍。服务器作为数据中心提供算力的计算底座,其出货量近几年也一直呈 稳定上升趋势,据IDC报告显示 ,2020年上半年全球服务器出货量达到了580万台。


按照芯片的组成,计算方式可以分为同构计算和异构计算。例如,由CPU提供算力的通用服务器 为同构计算。CPU作为通用服务器中最核心的部件,负责指令读取、译码和执行。CPU指令集可 以分为两类:复杂指令集(CISC)和精简指令集(RISC)。


复杂指令集以x86架构为主,通过可 实现复杂功能的指令和灵活多样的编码方式来提高程序的运行速度;精简指令集出现在复杂指令 集之后,主要有ARM架构、MIPS架构和Alpha架构等,精简指令集采用等长的指令,将一条指令 分割成若干个进程或者线程,交给不同的处理器并行处理,效率较高,工艺相对简单且成本低。复杂指令集(x86)凭借其多年来构建的完善的生态体系,占据了超过99.5%的市场份额,其代表 厂商是Intel和AMD。


分析机构Mercury Research公布的2019年全球x86架构处理器市场数据显 示 ,Intel份额为95.5%,AMD依靠霄龙(EPYC)处理器的上市,市场份额逐年增加,达到了 4.5%。x86架构的国内厂商主要有海光和兆芯。精简指令集主要用于智能手机和嵌入式市场,长 期以来由ARM占据着绝大多数的市场份额。


在ARM v8推出后,其市场不再局限于嵌入式和移动领域,高性能计算、服务器和桌面也都成为其重要拓展方向。近几年来,在ARM及其生态合作伙 伴的共同努力下,ARM服务器市场逐渐兴起,特别是在中国,国产的ARM服务器加速发展。精简 指令集国外代表厂商有Ampere(ARM)和Marvell(ARM),国内厂商则有华为鲲鹏 (ARM)、飞腾(ARM)、龙芯(MIPS)和申威(Alpha)。


在国家对集成电路产业优惠政策和产业基金等扶持下,近几年国内培育出了一批国产CPU设计单 位和研究机构,产品覆盖了高性能计算、桌面、移动和嵌入式等多种应用场景。国产CPU研发绝 大多数都是采用同国外合作的方式,主要途径包括购买指令集授权、技术合作等。


x86阵营的海光 和兆芯,通过技术合作获得架构授权。海光通过和AMD合作,获得x86指令集架构的授权和AMD Naples的IP授权,以及CPU设计的全部接近2000万行源代码。基于AMD的Zen1核心架构开发了 海光第一代CPU,采用14nm工艺,支持32核,支持超线程技术,主频最高3.2GHz,性能和AMD 的Naples相当,同时具备与x86生态的良好兼容性,目前基于海光自研全新微架构设计的海光第 二代CPU已量产,第三代CPU也即将于2021年中量产。目前海光CPU已经大量应用于电信、金 融、能源、交通、教育等关键信息基础设施领域。


兆芯通过威盛获得x86授权,产品线有面向桌 面/嵌入式的“开先”和面向服务器的“开胜”两大产品系列,其中最新的桌面处理器KX-6000系 列,基于16nm工艺,支持8核,主频3GHz,但是与国外高端CPU存在一定差距。


ARM阵营的华 为和飞腾,购买ARM指令集架构授权,自行编写代码并设计芯片,掌握了完整的知识产权和技 术。其中,飞腾于2020年7月发布的面向服务器的腾云S2500,基于16nm工艺,具有64个自主 核,支持2-8路CPU互联,主频 2.1GHz。华为服务器芯片鲲鹏920,支持64核,主频2.6GHz,采 用了先进的7nm工艺,在服务器CPU市场上具备较强的竞争力,目前已有12家整机厂商基于鲲鹏 主板推出自有品牌的服务器。


除此以外,龙芯采用MIPS架构,推出的3A/3B 3000产品,主要面 向桌面应用。申威采用Alpha架构,开发了大量自主知识产权的指令集,处理器芯片也不断更新演 进,帮助中国的超级计算机拿下多次世界第一。从整体上看,国产CPU芯片产品线相对丰富,不 同架构齐头并进,处于百花齐放状态,但也意味着国产CPU的生态体系需要持续完善。


相较于同构计算,得益于人工智能、大数据、VR/AR等新兴应用的快速涌现,以GPU、FPGA等 为代表的异构计算模式也在快速发展。异构计算是CPU、ASIC、GPU、FPGA等各种使用不同指 令集、不同体系架构的计算单元,在一个混合系统下执行计算的特殊方式。在这种组合下,CPU 扮演着指挥统筹和核心控制的角色,与GPU、FPGA等协处理器相互配合实现高效的并行处理。当 前,协处理器的通用性较低,针对不同场景,主要有以下几种类型:


GPU(Graphics Processing Unit)主要适用于人工智能和图像处理相关场景。典型的人工智能 类应用有高性能计算、训练、推理等,图像处理类应用有视频图像渲染、云AR/VR、云游戏等。目前,全球主要独立GPU显卡生产厂家有Nvidia、AMD和Intel。其中,Nvidia在人工智能及图 像处理领域产品布局全面,性能、生态良好,占有全球70-90%的市场份额(数据来源:前瞻产 业研究院) ;AMD拥有较丰富产品,性能和生态略差;Intel的独立显卡产品处于起步阶段。


NPU(Neural-network Processing Unit)主要适用于推理、训练场景。目前,全球主要独立 NPU卡生产厂家有华为和寒武纪等。华为NPU卡在智慧钢铁(如钢铁表面质检)、工业视觉(如 缺陷检测)等领域有一定量的应用。寒武纪NPU卡主要应用在机器视觉(如图像分类、检测)、 语音识别、自然语言(如智能客服)、搜索推荐等场景。


FPGA(Field Programming Gate Array,现场可编程逻辑门阵列)是由逻辑门电路组合成的 可重复编程器件,在数据中心、通信、航空、国防等有较高并行计算需求的领域有广泛应用。FPGA应用对开发人员要求较高,需要了解底层硬件知识,目前FPGA厂家为了降低开发门槛,在 不断优化开发平台,以期使FPGA开发更加快速、便捷。美国厂家Xilinx和Intel占据了90%左右的 市场份额[5],国内厂家主要有紫光同创、广东高云和复旦微电子等。


2.2   多样性算力发展驱动


2.2.1   技术与应用双轮驱动计算多样性产业发展

前端移动化和后端集群化逐渐成为当前信息技术发展的两大主流趋势。一方面信息技术发展已 经从桌面互联网时代进入了移动互联网时代,并逐步向万物互联时代演进,桌面终端适应移动场 景成为大势所趋,因此芯片生态能否拥抱移动互联甚至万物互联将成为未来能否获得用户和市场 的关键。另一方面,随着各行业信息系统建设模式逐步向云端迁移,云端集中承担了海量的信息 处理需求,这对云端服务器、存储、网络、安全设备等的运算性能提出了更高要求,同时出于成 本考虑,也对芯片的单位功耗下的算力要求不断提升。


传统CPU架构更注重单核性能,坚持性能 和速度的发展方向与模式,然而随着摩尔定律遇到瓶颈,分布式数据库、大数据、Web前端等高 并发应用场景逐渐广泛部署,以ARM或其他偏重多核并行的CPU架构优势愈加明显,功耗上也表 现更优,从而带动众多芯片厂商和云巨头纷纷布局基于多核ARM架构的系列产品。


2.2.2   供应链危机驱动构建多样性计算生态

计算是生态型的产业,离不开全球分工合作,但是受外部环境影响,供应链安全存在着不确定 性。当前数据中心领域x86占据统治地位,为保障供应链安全,多样性计算产业加速发展。我国 发展处理器首先需获取指令集授权,以华为海思以及天津飞腾为代表的ARM芯片厂商,均已获得 了ARMv8架构的永久指令集授权。ARM架构独特的授权模式有利于构建多样性计算生态,ARM 架构由ARM公司以IP对外授权的方式运营,合作伙伴获得IP授权许可证,在IP授权形式下,芯片 设计公司可以直接拿到授权图纸,研发周期大大缩短,同时可以结合自身需求开发出定制化的 CPU。


相较于传统CPU架构,ARM架构开发难度低、设计自由度高、架构授权允许自行开发核心 代码,且ARM CPU芯片供应商众多,主流的服务器操作系统如Linux、Ubuntu和Debian对 ARM架构支持的力度也在不断增强,生态发展正在持续完善。同时,基于MIPs、Alpha等指令 集架构,我国也有以龙芯、申威等为代表的厂商研发产品,龙芯和申威早期分别购买了MIPS指 令集架构及Alpha指令集架构的永久授权,目前主要在特定领域应用。


2.3   多样性算力产业发展面临的挑战

2.3.1   标准体系不成熟,影响产业规模发展

数据中心算力平台是系统性产品,随着多样性技术路线的引入和发展,各产品的兼容性问题更 加突出。无论哪一种算力的规模部署,均需要解决产业上下游组件的兼容性问题,并推动组件、 产品和解决方案的同步发展,提供有竞争力的服务器整机设计,降低OEM/ODM服务器开发成 本,繁荣整个产业链。


围绕多样性算力相关技术标准及评测标准制定,应推动行业标准化、通用化,促进各产品兼容 性相关测试规范和标准的制定,并开展多样性算力测试验证促进产业链成熟。算力平台的硬件、 固件、整机和基础软件厂商众多,OS、BIOS和硬件 (CPU、其它组件)之间如果缺乏统一的接口 定义,OS就需要单独适配不同厂商的固件和硬件,不仅适配的工作量大,还会由于软硬件不同的 演进产生兼容性的问题。此外,如果没有针对工具链和编译器定义统一的接口,上层软件为了进 行性能优化就需要针对不同的系统,分别进行差异化的参数配置和调优,在某个平台上编译构建 的软件,也无法在其他平台上正常运行。


对于多样性算力产品的研发、制造和使用的全生命周期场景,服务器系统管理能力标准也是产 业的迫切需求。随着数据中心规模的扩展,用户需要智能、高效、可扩展的管理架构对服务器设备进行运维。服务器系统管理架构的核心是BMC(基板管理控制器),一方面,需要制定开放的硬 件管理接口(CPU、主板、外设、机箱等)和软件管理接口(BIOS、OS、管理软件等)来推动 各组件间的交互、兼容。另一方面,需要从产品层面规定服务器应具备的系统管理功能、性能、 安全性等方面的要求,促进先进的服务器管理能力(故障精准诊断,动态能耗管理,安全可信 等)、提升系统可靠性,满足数据中心用户的需求。通过定义服务器管理的接口规范,逐步建立 完善的标准体系,使生态系统的参与者能够更好的协作。


2.3.2   评测标准不完善,缺乏牵引产业进步的公正“标尺”


计算平台蓬勃发展遵循开放、精简、低功耗、高并发的方向,以更低的成本提供更高算力。目 前业界采用较多的SPEC基准对公平公正评测ARM等多样性计算平台有不少差距,不同架构处理 器采用SPEC基准对比评测时,结果对x86架构更友好,主要表现在Workload的选择大部分是x86 原生,如ICC等编译器组件存在定向结果优化,测试分数会高,但实际跑应用效果不明显。

另外,缺少对如对大数据、分布式存储、游戏类主流场景的覆盖,在选择的Workload方面因历史继承 等问题,Perl编译器和AI等Workload选择比较旧,x.264等版本比较老,在结合新型应用方面有 一些欠缺,存在“评分高,运行卡”等行业现实问题。此外,虚拟化性能验证考虑不足,难以适 应多样性计算平台发展的现状并指导发展方向。

因为业界现有基准的设计开发过程缺少对ARM等多样性算力平台的充分考虑,在评价和基于评 价结果优化多样性算力平台的性能时,存在与实际算力的偏差。亟需建立面向多样性算力的开 放、中立、公正的性能评测基准体系,并与应用相结合,推动多样性算力产业体系的持续进步。


2.3.3   生态发展依然薄弱,需集中力量,加强合作

近几十年的全球化发展,在计算和通信等技术领域都构建了紧密、协作的产业体系与应用生态 体系。在全球环境日益不确定的背景之下,如何加强全球产业伙伴的合作,增进共享多样性算力 产业规模化的收益,对于全球从业者都提出了挑战。


首先,在硬件角度,针对通用计算、AI计算、HPC等多种计算技术领域,服务器主要部件/器件 的正常供应秩序受到影响,增加了产业链不确定性和业务正常开展的风险。x86架构以外,ARM 架构的服务器供应方正日趋完善,而其他计算平台的服务器供应方均不够丰富,市场选择少难以 满足日益增长的市场需求。


其次,在应用角度,由于指令集的差异,选用非x86处理器一般要进行应用迁移。以ARM平台 为例,C/C++/Go等编译型语言开发的程序在从x86平台迁移到ARM平台时,需要进行重新编 译。国产ARM生态经由华为和飞腾的持续建设,已取得一定成效。其他计算平台受限于技术路线 的影响力、OS和生态工具的支持力度等因素,在从端到云的生态建设上仍有不少差距。


供应链不确定性带来的硬件生态问题,大量应用迁移带来的软件生态问题,都对多样性算力产 业体系的发展提出了挑战,考虑到当前国内各技术路线的发展情况,现阶段面向数据中心领域建 议先收敛到相对成熟的ARM技术路线,后续再考虑其他多核CPU,促进多样性算力产业的规模化效益。


下载链接:多样性算力技术愿景白皮书

《服务器研究框架合集》下载地址:服务器研究框架合集

1、华为鲲鹏生态研究框架

2、服务器研究框架

3、国产架构服务器研究框架

4、服务器系列报告(计算篇)CPU平台


下载链接:深度报告:RISC-V异构IoT全新架构

开启国产CPU和AI芯片的腾飞之路

CPU和GPU研究框架合集

1、行业深度报告:GPU研究框架

2、信创产业研究框架

3、ARM行业研究框架

4、CPU研究框架

5、国产CPU研究框架

6、行业深度报告:GPU研究框架

国产基础软硬件:开源、迁移、上云,关键在生态





免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。

获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


浏览 30
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报