海量数据催生新风口,谁是分布式存储头雁?
十多年来,云计算、5G、大数据、AI等创新技术得以快速发展,并推动着百行百业的产业数字化进程。当前,数字新基建在不断深入,作为其重要基石的数据存储,备受瞩目。尤其是新技术的应用与推广,引发了海量数据的规模化聚集,数十PB甚至数百PB的海量数据存储需求,已成为新兴产业发展的数字化常态之一。
然而,海量存储虽不是一个最新的名词,却有着与时俱进的含义。十多年之前的海量存储以TB级定义,十多年后的今天,海量存储的概念要从百PB级谈起。或许随着计算能力与存储能力的进一步提升,在不久的将来,当前的海量存储定义又会发生新的变化。
众所周知,数据存储容量增长无止境,海量数据的应用场景也不断创新。就基因测序、气象预测、自动驾驶、能源勘探、地理测绘等新兴应用的发展而言,想要打造海量数据背后牢固的存储基石,分布式存储不可或缺,为啥?
与生俱来的契合性
带给新兴应用更多的发展契机
海量数据的产生源自新兴应用持续不断的技术创新与发展,并且随着新兴应用的深入也带来数据爆发式增长,同时海量数据丰富的应用场景,在促进数字技术和实体经济深度融合上,发挥出强大的优势,也为传统产业转型升级带来了很好的帮助,持续助力新产业、新业态、新模式的产生。
从当前来看,海量数据催生的新兴应用,可以分为三种类型:
针对科学研究类,主要包括了基因测序、气象预测等应用。
在这类应用中,需要存储满足多样化的IO需求,承载多样化的工作负载。
针对智能决策类,主要包括了大数据智能分析、自动驾驶等新兴应用。
这类应用需要存储系统能够对多种数据类型进行分析,满足对多种算法的支持。
针对数据管理类,这类应用需要存储系统实现海量数据的高效共享,满足跨地域随时访问需求。
全球存储观察分析认为:面对不断涌现的海量数据,我们不得不认真思考数据存储的应用方式。分布式存储弹性、灵活性、扩展性等特点,与新兴应用场景中,敏态业务随时无感扩缩、智能决策等特点有着天然的契合。
可见,分布式存储正在成为新兴应用的数据基石,不可或缺。
自研可控按需定制
让分布式存储更美
作为中国数据存储领域中重要代表之一,曙光存储历经十多年的发展,坚守自研创新之路,本着满足用户需求为宗旨,不断赋能新兴应用场景,让海量数据价值得以全面释放。
在科学研究类应用中,曙光ParaStor采用IB+RDMA高速互联、内核态POSIX协议、智能SSD Cache及小文件聚合等技术,应对海量大文件存储场景高聚合带宽、小文件存储场景高IOPS的存储挑战,满足基因测序、气象预测等应用的存储需求。
在智能决策类应用中,曙光ParaStor单一存储节点提供多种协议支持,打通从数据的采集、应用、分析到归档的链路,在海量异构数据融合的基础上,对云、5G、AI等应用有着良好的支持。此外,ParaStor采用原生HDFS接口,无任何协议损耗,无缝接入大数据平台,通过构建高性价比的大数据存算分离解决方案,在存算分离的基础上,保证了性能的指数级提升,还可以支持更多大数据高级功能。
在数据管理类应用中,曙光ParaStor可通过 3节点存储集群承载非结构化与结构化数据业务,消除存储设备多样性及管理复杂性,降低存储系统的构建成本,实现存储资源融合管理,以及多样化数据高效应用,释放分布式存储的数据管理价值。
300PB海量存储背后
隐藏着一股怎样的技术力量
2022年,由曙光部署实施的,我国单套最大规模的海量存储系统已达到300PB。然而,300PB海量存储背后,隐藏着一股怎样的技术力量?
好的海量存储,有三个重点的考量指标。首先,海量存储不是简简单单设备的堆积,要解决呈指数级增长的诸多技术难题;其次对应用的深度把握与定制,才能实现对业务的良好支撑;第三是超大规模项目的部署经验与应用支持,通常支持百PB级存储规模部署和支撑万级客户端访问,才能真正体现厂商实力。
基于自研优势,曙光ParaStor创新打造的Object System(本地对象管理系统)、分布式锁、多协议融合等多项技术,解决了海量存储系统在磁盘稳定性、数据一致性和多种应用支持等技术难题,实现用户建设高价值存储的愿景。
凭借对行业应用的深刻理解,曙光存储可在硬件平台、软件功能、数据IO路径、系统稳定性等方面进行定制开发、性能优化和测试,让用户更好地致力于业务创新和更高效地成长。
此外,作为国内专注海量存储系统研制的领先厂商,曙光从2009年单套存储系统容量16PB,到2022年单套存储系统300PB,不断突破业内存储容量和性能的极限。曙光存储团队以强烈的责任心和使命感,为客户提供专业的技术支撑。
据悉,曙光ParaStor已在各类算力中心项目中提供坚实的数据存储基座。当然,随着“东数西算”等国家级项目对海量数据的需求量持续增大,也对存储系统提出了数据流通更高效、数据应用更智能、数据存储更安全、存储设备绿色节能的要求。作为行业领先的分布式存储厂商,曙光又是如何满足这类国家级项目对数据更深层次的诉求呢?
针对数据的高效流通,ParaStor基于资源的高效管理与协同,支持多种存储协议,提供文件、块、对象、HDFS四种存储服务,支持数据从采集、处理、分析到归档,包括多个中心节点之间的流通。
面向更智能的应用需求,ParaStor提供原生HDFS接口,可高效支持大数据的智能化应用。通过原生协议,无任何协议损耗,无缝接入大数据平台,满足更多大数据高级功能。在面对用户不同的应用时,可快速实现对新组件的灵活支持。
面向更安全的需求,曙光ParaStor的软硬件均采用自研的设备。在硬件层面,通过CPU、内存、电源、风扇等主要部件的冗余配置,保证单个部件故障时,不影响整个节点正常运行。其次是软件层面,ParaStor通过智能化故障预处理与高效无感知的系统自愈,才能让系统真正可靠稳定运行。
面向存储设备绿色节能需求,曙光于2022年再次升级曙光ParaStor,加持液冷设计,再加上前端曙光液冷的计算节点,完全形成一体化的液冷存储方案,PUE值可达到1.04。
由此而言,展望未来,面向东数西算工程的发展,曙光存储不仅实现了300PB海量存储最新实践,同时其背后隐藏着一股值得关注的技术力量,面向数据存储的高效、智能、安全和绿色的更高需求,提供更为细致与全面的解决之道。
小 结
打造新兴产业的数据存储基石
随着基因测序、气象预测、自动驾驶、能源勘探、地理测绘、通信行业等新兴产业应用的发展,分布式存储以更为与时俱进的创新能力,正在构建更强大的数据存储基石,并不断发挥着重要的作用。
诚然,“东数西算”正在构建数据中心、云计算、大数据一体化的新型算力网络体系,促进东西部协同联动。各个产业的飞速发展都在不断产生大规模的海量数据,给分布式存储的创新发展提供了技术进步的土壤。可见,打造东数西算的数据存储基石,将成为有志于此的所有数据存储厂商下一步发展的重点。
有着数十年的自研积累,拥有广泛行业用户的大规模部署落地经验,曙光存储在分布式存储领域的作为,业界都可以看得出来,不仅顺应着用户需求的发展,同时也顺应着时代的发展。加速新兴产业发展,发挥出新数据的真正价值,以分布式存储的持续创新来夯实数字化基石,曙光当仁不让。
(by Aming)