龙存上线20PB全闪并行存储，支持大规模人工智能模型训练

人工智能的发展和存储需求

随着生成式AI技术的快速发展和广泛应用中国正处在AI产业爆发的关键时期。根据Gartner的预测，约有26%的中国用户已经着手部署生成式AI技术，这一趋势将进一步推动企业创新。在这个大模型时代，AI的算力、数据集和参数都在成倍增长，从而引发了IT基础设施的大规模变革。

然而，在实际应用中，通用大模型和行业大模型的训练和推理面临诸多数据问题。例如，海量数据跨域的速度缓慢、数据交互效率在预处理和训练中较低、以及数据安全流动的难度大。这些问题的存在对深度学习和人工智能的发展构成了重大挑战。

数据作为深度学习的基础，也是实现人工智能的最底层土壤，对人工智能的发展至关重要。因此，人工智能也对存储技术提出了极高的要求。在面对这些挑战时，我们需要在技术创新和实践中寻求解决方案，以推动人工智能的发展。

为针对人工智能模型训练所需的超大容量和高性能存储系统需求，龙存上线了一个容量高达20PB的单一共享并行文件系统存储池，以卓越性能支持由超过300台GPU服务器组成的智能模型训练集群的数据存储。

a.构建了20PB大容量的统一全局共享的弹性文件存储池，能够按需提供文件、块、对象、大数据等存储接口和协议，以满足各种业务类型的数据存储需求；

b.实现了海量数据的统一高效管理，没有系统规模及文件数量限制。可以针对不同的目录或者文件的类型，灵活选择不同的冗余策略；

c.实现了文件和对象之间的互通共享同一份数据，无需配置网关等，实现了两种协议之间数据的无缝衔接。

a.采用了100Gb Infiniband网络，支持RDMA和MPI-IO，降低延迟并提高读写带宽；

b.使用自研POSIX兼容内核客户端高速读写协议，单客户端同时通过前端网络写入多个存储节点、自动负载均衡、多网段通道并发读写、网络闪断自动重连、网络故障自动切换等高级功能，提升业务读写效率和连续性；

c.支持文件系统级别的QOS访问质量控制，保障业务的数据读写访问性能；

d.针对小文件场景使用了创新的NEST聚合存储技术，实现了将小文件聚合成大文件落盘，从而降低了存储负载提高了读写性能。

a.通过多副本和纠删码冗余技术，支持多副本、N+M等多种数据保护策略，基于目录的冗余配比策略，可在线更改目录冗余模式，提供不同级别的数据保护。系统可进行自动故障恢复，数据重构时间小于30min/TB，为数据提供更全面的保护；

b.自带客户端以及用户访问权限机制，可设置客户端以及私有用户对其中任意数据的读、写、删、list、ln、重命名、追加写的权限，任何超级管理员用户也无法逾越此权限，以此保证数据的安全性；

c.支持NIS、LDAP、AD域结合实现用户权限管理；

d.支持文件级和块级快照、克隆功能，满足数据保护和数据跨部门快速传输数据，提高效率；

e.多套异地存储系统之间支持文件按需双向推送复制功能，并且根据广域网的带宽进行QOS设置确保文件能够持续、可控、安全的复制到目的存储；

f.针对不同类型业务，可进行数据分组，业务数据之间相互隔离。

a.兼容各种硬件和网络环境，实现了20PB容量存储系统在三天内迅速部署上线；

b.支持综合性的人工智能平台，支持多个模型并行做高强度训练。

2023-08-16

首页 ꄲ 龙存上线20PB全闪并行存储，支持大规模人工智能模型训练

公司总部 · 北京

客服电话

400-803-6006

网销电话

400-803-6006

丨产品

丨案例

丨方案

丨关于我们

丨最新动态

龙存上线20PB全闪并行存储，支持大规模人工智能模型训练

热烈庆祝龙存科技荣获2023信创“大比武”金融赛道总决赛二等奖

龙存高性能并行存储支持AI人工智能

异构混合存储，提速全国产化进程