龙存上线20PB全闪并行存储,支持大规模人工智能模型训练
人工智能的发展和存储需求
随着生成式AI技术的快速发展和广泛应用中国正处在AI产业爆发的关键时期。根据Gartner的预测,约有26%的中国用户已经着手部署生成式AI技术,这一趋势将进一步推动企业创新。在这个大模型时代,AI的算力、数据集和参数都在成倍增长,从而引发了IT基础设施的大规模变革。
然而,在实际应用中,通用大模型和行业大模型的训练和推理面临诸多数据问题。例如,海量数据跨域的速度缓慢、数据交互效率在预处理和训练中较低、以及数据安全流动的难度大。这些问题的存在对深度学习和人工智能的发展构成了重大挑战。
数据作为深度学习的基础,也是实现人工智能的最底层土壤,对人工智能的发展至关重要。因此,人工智能也对存储技术提出了极高的要求。在面对这些挑战时,我们需要在技术创新和实践中寻求解决方案,以推动人工智能的发展。
龙存20PB全闪并行存储支持人工智能模型
为针对人工智能模型训练所需的超大容量和高性能存储系统需求,龙存上线了一个容量高达20PB的单一共享并行文件系统存储池,以卓越性能支持由超过300台GPU服务器组成的智能模型训练集群的数据存储。
龙存并行存储方案特点
- 超大容量和全局共享
a.构建了20PB大容量的统一全局共享的弹性文件存储池,能够按需提供文件、块、对象、大数据等存储接口和协议,以满足各种业务类型的数据存储需求;
b.实现了海量数据的统一高效管理,没有系统规模及文件数量限制。可以针对不同的目录或者文件的类型,灵活选择不同的冗余策略;
c.实现了文件和对象之间的互通共享同一份数据,无需配置网关等,实现了两种协议之间数据的无缝衔接。
- 超高性能
a.采用了100Gb Infiniband网络,支持RDMA和MPI-IO,降低延迟并提高读写带宽;
b.使用自研POSIX兼容内核客户端高速读写协议,单客户端同时通过前端网络写入多个存储节点、自动负载均衡、多网段通道并发读写、网络闪断自动重连、网络故障自动切换等高级功能,提升业务读写效率和连续性;
c.支持文件系统级别的QOS访问质量控制,保障业务的数据读写访问性能;
d.针对小文件场景使用了创新的NEST聚合存储技术,实现了将小文件聚合成大文件落盘,从而降低了存储负载提高了读写性能。
- 更高的安全性和连续性
a.通过多副本和纠删码冗余技术,支持多副本、N+M等多种数据保护策略,基于目录的冗余配比策略,可在线更改目录冗余模式,提供不同级别的数据保护。系统可进行自动故障恢复,数据重构时间小于30min/TB,为数据提供更全面的保护;
b.自带客户端以及用户访问权限机制,可设置客户端以及私有用户对其中任意数据的读、写、删、list、ln、重命名、追加写的权限,任何超级管理员用户也无法逾越此权限,以此保证数据的安全性;
c.支持NIS、LDAP、AD域结合实现用户权限管理;
d.支持文件级和块级快照、克隆功能,满足数据保护和数据跨部门快速传输数据,提高效率;
e.多套异地存储系统之间支持文件按需双向推送复制功能,并且根据广域网的带宽进行QOS设置确保文件能够持续、可控、安全的复制到目的存储;
f.针对不同类型业务,可进行数据分组,业务数据之间相互隔离。
- 广泛的成熟度和兼容性
a.兼容各种硬件和网络环境,实现了20PB容量存储系统在三天内迅速部署上线;
b.支持综合性的人工智能平台,支持多个模型并行做高强度训练。
公司总部 · 北京
客服电话
400-803-6006
网销电话
400-803-6006
丨 最新动态
龙存高性能并行存储支持AI人工智能
异构混合存储,提速全国产化进程