龙存高性能并行存储支持AI人工智能

一、人工智能发展如火如荼,存储系统重要性不容忽视

最近几年人工智能在给各行各业赋能,各项技术发展迅速,整体的GPU/CPU算力提升迅猛。企业为了构建AI人工智能平台所投入的金额也非常庞大。随着算力的迅速提升,支撑数据存储的存储系统的重要性也显得更加重要。如若存储系统的性能无法匹配强大的算力,那么GPU/CPU算力将会由于数据无法跟上而处于等待状态,将会严重浪费庞大、昂贵的算力基础资源。

当前用来支撑商用HPC、人工智能计算平台数据存储的系统只有有限的产品方案选择,传统的集中存储系统无法支撑庞大的并发读写访问,而开源的文件系统也由于没有技术服务以及缺少重要企业级功能而不能支撑愈加重要的算力平台数据存储。

二、传统并行文件系统存在的问题

   不支持纠删码,无法保障业务连续性和数据完整性

当前随着单块磁盘容量越来越大(10TB~20TB),单套存储系统管理的硬盘数量越来越多,RAID技术已经暴露出越来越多的问题,比如重建速度慢、容错等级低下、故障点多等问题。

1RAID+IO节点热备HA技术:传统的并行文件系统往往基于存储节点/磁盘阵列自身的RAID+IO节点HA方式的安全性问题越来越突出,已经难以支撑更大规模的存储系统构建。

2RAID+镜像副本技术:通过存储节点自身的RAID+存储节点之间做数据镜像的方式则导致存储空间利用率异常低下(低于45%),浪费了太多的存储资源。

元数据处理能力弱,小文件性能低下

人工智能非常重要的场景就是通过GPU进行视频图像的处理,该场景往往会产生海量的小文件数据,从而对于存储系统的元数据处理能力带来了严重的挑战。当前传统的并行文件系统的元数据处理方面采用了如下的办法并暴露出了相关的技术问题:

1NSD(网络共享磁盘)的方案:该方案服务器可以更容易针对跨元节点的并发元数据访问进行调整,但是在作出调整方面的选择时牺牲了其他性能上的提升,从而导致元数据处理能力低下。

2使用的串行元数据访问模型:该方案只有单台元数据服务器,或者单个文件系统目录只能访问某台元数据服务器。在高并发访问的情况下,元数据访问就需要串型排队处理,这使得许多人工智能分析的工作负载所需的众多并发文件操作非常慢。

三、龙存推出面向人工智能AI的并行文件系统方案

采用纠删码数据冗余保护,提升AI计算连续性

LoongStore并行文件系统支持多种灵活的冗余模式,同时支持多副本和纠删码技术。系统最大支持4节点同时宕机而不影响业务,可根据系统规模选择更合适业务数据的数据保护策略。同时,系统支持基于目录的在线冗余模式调整,最大限度保证数据安全性,同时将系统可使用空间最大化,空间使用率最高可达94%。LoongStore可同时提供文件级及块级别数据保护,用户可以在目录、文件、子目录、块设备和集群上设置不同的保护级别。

LoongStore使用N+M纠删码技术。N+M数据模型,N代表节点或硬盘的数量,M代表在不发生数据丢失的前提下,集群所允许的同时发生故障的节点数或磁盘数。例如,当采用N+4模式时,整个LoongStore集群存储系统允许同时损坏4个存储节点或任意4块硬盘。

LoongStore的磁盘损坏以后的数据重建速度比传统RAID快了五倍以上,每TB数据重建时间不超过30分钟,从而大幅度的提升数据安全性和业务访问的连续性。

 

 

高效的元数据处理能力

LoongStore元数据服务是一种扩展服务,这意味着在LoongStore文件系统中可以有一个或多个元数据服务。每个元数据服务负责其在全局命名空间中的独占部分,因此拥有更多的元数据服务器可以提高整体系统性能,并且以后添加更多的元数据服务器。

通常,元数据目标是基于闪存硬盘单盘、RAID1或RAID10的存储,因为较低的元数据访问延迟可以提高文件系统的响应能力。LoongStore元数据非常小,并且与用户创建的文件数呈线性增长。512GB的可用元数据容量可以容纳大约超过1亿个用户文件。

由于文件系统元数据操作占典型文件系统工作负载的一半,有效的元数据管理对整个系统性能至关重要。元数据管理在分布式文件系统中也提出了一个关键的可伸缩性挑战。随着添加了更多的存储设备,容量和聚合I/O速率可以任意伸缩,但是元数据操作涉及到更大程度的相互依赖性,这使得可扩展的一致性和一致性管理更加困难。

LoongStore采用了一种基于动态子树划分的新型元数据集群体系结构。该体系结构能够自适应地、智能地将管理文件系统目录层次结构的责任分配给数个甚至数百个元数据节点。一个(动态的)分层分区在每个元数据节点的工作负载中保持局部性,有助于高效的更新和积极的预取,以提高高负载下的性能。LoongStore能够在任何工作负载下有效地利用可用的元数据节点资源,并实现元数据节点数量的近似线性扩展。

存算融合,多级存储满足不同阶段的数据存储需求

当前GPU/CPU计算节点中一般都会配置部分数据磁盘。这些计算节点内部硬盘的问题在于它们既没有跨多台机器的单个命名空间所具有的优点,也没有共享并行文件系统的灵活性和性能。

所以除了使用LoongStore并行文件系统构建独立的共享文件系统存储池以外,LoongStore还可以整合计算节点内置的硬盘,使之构建为全局名字空间的文件系统存储池。所以LoongStore完全针对作业的运行时环境,“按照具体作业”跨所有计算节点创建一个共享的并行文件系统,所有计算节点都参与处理某个特定的计算作业。具体配置如下:

 

并行文件系统&GPU/CPU计算融合部署运行

通过此种方案配置,CPU、GPU计算作业可以像访问本地目录一样访问并行文件系统基于服务器内置磁盘构建的全局共享文件系统存储池,实现文件共享和高并发读写访问。

该并行文件系统和CPU、GPU计算任务等同一个物理节点进行部署的方案可以更好的实现存储和计算融合,并且方案可以根据需要灵活配置节点数量来扩展GPU/CPU计算资源、存储资源,实现动态扩展来匹配业务需求。

更高的计算节点客户端读写性能

LoongStore提供了高性能的操作系统内核原生POSIX客户端,以一客户端对多台存储节点的方式并行读写数据,并且支持RDMA。在实际的运行过程中,LoongStore的单台计算节点进行数据读写能够充分利用自身的网络吞吐极限能力,读写带宽可以达到网络带宽的90%以上,从而更加充分地满足计算节点所需要的数据读写性能。比如配置了200Gbps Infiniband网络的单台节点通过POSIX客户端最高可以获得超过20GB/s读写带宽的性能。

更高的存储硬件性能发挥百分比

LoongStore基于RDMA以及基于内核级别的程序设计、缓存策略等技术实现,可以更大化的发挥基础硬件和网络的性能,单台存储节点配置四块NVMe-SSD就可以提供17.4GB/s的聚合读写能力。LoongStore的测试性能表现突出,主要如下:

    1、每块Nvme-SSD在文件系统中可以提供超过4.3GB/s的读写性能。

    2、每块SATA硬盘可以在文件系统中可以提供超过150MB/s的读写性能。

全面的跨芯片服务器兼容能力

LoongStore基本上与硬件无关。从CPU层面来看,LoongStore支持市场上的所有CPU,无论是X86还是飞腾、鲲鹏、海光、申威、龙芯,并且还支持跨芯片架构服务器混合部署为一套存储系统。

 

 

LoongStore并行文件系统依靠更高的可靠性、读写性能、兼容能力等,持续替代传统的文件系统支撑了大量AI人工智能、商用HPC项目的数据存储应用,支持了诸如超过五千台计算节点客户端、超过五百台存储节点的单一文件系统、超过100PB裸容量的单一存储池等诸多大规模项目,给AI人工智能加速。

 

2023-06-02
首页    高性能AI    龙存高性能并行存储支持AI人工智能