龙存上线20PB全闪并行存储,支持大规模人工智能模型训练

人工智能的发展和存储需求

随着生成式AI技术的快速发展和广泛应用中国正处在AI产业爆发的关键时期。根据Gartner的预测,约有26%的中国用户已经着手部署生成式AI技术,这一趋势将进一步推动企业创新。在这个大模型时代,AI的算力、数据集和参数都在成倍增长,从而引发了IT基础设施的大规模变革。

然而,在实际应用中,通用大模型和行业大模型的训练和推理面临诸多数据问题。例如,海量数据跨域的速度缓慢、数据交互效率在预处理和训练中较低、以及数据安全流动的难度大。这些问题的存在对深度学习和人工智能的发展构成了重大挑战。

数据作为深度学习的基础,也是实现人工智能的最底层土壤,对人工智能的发展至关重要。因此,人工智能也对存储技术提出了极高的要求。在面对这些挑战时,我们需要在技术创新和实践中寻求解决方案,以推动人工智能的发展。

 

龙存20PB全闪并行存储支持人工智能模型

为针对人工智能模型训练所需的超大容量和高性能存储系统需求,龙存上线了一个容量高达20PB的单一共享并行文件系统存储池,以卓越性能支持由超过300台GPU服务器组成的智能模型训练集群的数据存储。

 

 

 

龙存并行存储方案特点

  • 超大容量和全局共享

a.构建了20PB大容量的统一全局共享的弹性文件存储池,能够按需提供文件、块、对象、大数据等存储接口和协议,以满足各种业务类型的数据存储需求;

b.实现了海量数据的统一高效管理,没有系统规模及文件数量限制。可以针对不同的目录或者文件的类型,灵活选择不同的冗余策略;

c.实现了文件和对象之间的互通共享同一份数据,无需配置网关等,实现了两种协议之间数据的无缝衔接。

  • 超高性能

a.采用了100Gb Infiniband网络,支持RDMA和MPI-IO,降低延迟并提高读写带宽;

b.使用自研POSIX兼容内核客户端高速读写协议,单客户端同时通过前端网络写入多个存储节点、自动负载均衡、多网段通道并发读写、网络闪断自动重连、网络故障自动切换等高级功能,提升业务读写效率和连续性;

c.支持文件系统级别的QOS访问质量控制,保障业务的数据读写访问性能;

d.针对小文件场景使用了创新的NEST聚合存储技术,实现了将小文件聚合成大文件落盘,从而降低了存储负载提高了读写性能。

  • 更高的安全性和连续性

a.通过多副本和纠删码冗余技术,支持多副本、N+M等多种数据保护策略,基于目录的冗余配比策略,可在线更改目录冗余模式,提供不同级别的数据保护。系统可进行自动故障恢复,数据重构时间小于30min/TB,为数据提供更全面的保护;

b.自带客户端以及用户访问权限机制,可设置客户端以及私有用户对其中任意数据的读、写、删、list、ln、重命名、追加写的权限,任何超级管理员用户也无法逾越此权限,以此保证数据的安全性;

c.支持NIS、LDAP、AD域结合实现用户权限管理;

d.支持文件级和块级快照、克隆功能,满足数据保护和数据跨部门快速传输数据,提高效率;

e.多套异地存储系统之间支持文件按需双向推送复制功能,并且根据广域网的带宽进行QOS设置确保文件能够持续、可控、安全的复制到目的存储;

f.针对不同类型业务,可进行数据分组,业务数据之间相互隔离。

  • 广泛的成熟度和兼容性

a.兼容各种硬件和网络环境,实现了20PB容量存储系统在三天内迅速部署上线;

b.支持综合性的人工智能平台,支持多个模型并行做高强度训练。

 

 

2023-08-16
首页    龙存上线20PB全闪并行存储,支持大规模人工智能模型训练