某人工智能研究院龙存存储案例

 

当下,以AIGC技术为代表的新一轮人工智能蓬勃兴起,用人工智能大模型作画、写诗你也许已经不那么陌生,但这些只是人工智能大模型应用中的冰山一角。未来,金融、制造、交通等各行业都将可能实现更具针对性、落地垂直场景的行业大模型。

 

一、业务介绍

 

随着生成式AI 技术的快速发展和广泛应用中国正处在AI 产业爆发的关键时期。根据Gartner 的预测显示,约有26%的中国的用户已经着手部署生成式AI 技术,这一趋势将进一步推动企业创新。在这个大模型的时代,AI 的算力、数据集和参数都在成倍的增长,从而引发了IT 基础设施的大规模变革。数据作为深度学习的基础,也是实现人工智能的最底层土壤,对人工智能的发展至关重要。因此,人工智能也对存储技术提出了极高的要求。在面对这些挑战时,我们需要在技术创新和实践中寻求解决方案,以推动人工智能的发展。
 

二、项目挑战

 

1、大容量
            大型的数据集容量往往会达到几十TB 甚至上百更甚至达到PB 级别。


      2、性能
            需要持续稳定的高带宽性能,并且可持续扩展到数十甚至数百GB/s。


      3、MPI-IO
            训练软件可以采用MPI 进行并行的任务计算。文件系统需要支持MPI-IO。


      4、小文件
            大部分的数据集都是由很多小的文件组成,需要并行文件系统对海量小文件进行存储优化,确保小文件的访问性能。

 

5、数据安全性
            需要有全局的数据冗余能力、灵活的权限控制来保障数据安全性。

 

6、业务连续性
            即使出现存储设备宕机、网络局部中断,也保障计算任务能够连续性运行进行连续性数据读写访问。

 

7、扩展性
            需要能够支撑不断扩展的计算能力对于存储读写性能和容量的需求。

 

 

三、龙存整体解决方案

 

龙存选用全闪分布式存储为研究院打造高性能存储底座,全闪性能达到200W 级别IOPS,带宽逾百GB/s,集群文件数量近百亿,支撑了前端500 台计算服务器其中包括120 台NVIDIA A100 40GB 高性能GPU服务器共计960 块GA100-883AA-A1 的在线业务。龙存分布式存储以领先的元数据集群技术,打造元数据集群存储系统架构,实现存储系统整体性能跃升——所有元数据服务器同时参与文件检索与定位工作,为研究院提供了近乎无限的文件存储数量和高效的文件检索服务,并且达到即插即用,性能与容量线性增长的效果

 

针对研究院的大模型海量小文件读写场景,龙存分布式存储不再进行低效的单个小文件的切片传输,而是以目录为单位进行小文件聚合传输,大幅提高网络传输和磁盘使用效率。在顺序读取大量小文件时,内存命中率超过96%,有效缩短了IO 路径,降低了磁盘操作次数及数据访问延迟。此外,龙存分布式存储还支持RDMA 技术,有效提升了大小文件读写以及整体存储系统性能——数据能够绕过CPU,直接传到对端内存,避免多次的数据拷贝,同时减少了CPU 占用,提升吞吐量,降低延时

 

2023-10-10
首页    人工智能    某人工智能研究院龙存存储案例