生命科学 AI 存储案例

 

用户为国内顶尖的AI蛋白质设计平台公司,拥有全球顶级计算生物专家团队。身处以生物科技革命为代表的新一轮科技与产业革命的潮头浪尖,将人工智能作为变革乃至颠覆生命科学研究的利器。公司正在通过顶级的AI算法,为蛋白质的发现、优化与设计带来革命性的变化,以加速药物研发全流程,促进工农业生产、材料设计和环境改善等全领域创新。

 

一、项目背景

 

作为生命的“语言”,蛋白质可以是治疗癌症的特效药物、抗击病毒的疫苗,甚至是催化特定反应的酶,在医疗、材料和环境治理等领域发挥作用。AIGC给予人类的想象力,远不止语言理解和图像生成。放置生命科学领域,一日源自AI绘画领域的扩散模型,破译了蛋白质结构的组织方式,就可以应用于蛋白质的定制设计。作为AI创新药物研发商已经开发了设计各种大小分子药物的创新算法,对于患者基因组数据的分析技术包括靶点发现,以及下游的药效分析和临床实验设计的技术,从而加速新药,特别是大分子药物的发现,设计与优化。

 

二、龙存价值

 

LoongStore通过标准的X86服务器为AI平台构建一套容量与性能可无限水平扩展的分布式文件存储,可承载数百亿个几十KB的小文件,为AI蛋白质设计平台深度学习提供并发访问支持,满足AI训练中GPU或CPU计算集群的高带宽、低延时的小文件访问特性,本项目中使64块GA100-893 GPU计算资源得到最大程度的利用,在百亿文件数量下仍然能够提供稳定的数据访问性能,有效提升训练效率。

 

 

高效数据访问缩短训练过程

 

为了满足AI蛋白质设计平台计算集群对文件存储极致的性能要求,LoongStore在架构和实现上采用了多项专利技术及高效的数据放置策略。

  • 双活元数据集群架构,提升系统OPS能力
  • 支持基于RDMA协议的IB网络,提供数据并发处理效率,降低数据访问延迟
  • 专用并行客户端,缩短IO访问路径,提升并发访问效率
  • 小文件聚合技术,缩短AI蛋白质设计平台深度学习时间5倍以上。

 

海量文件承载能力

 

AI蛋白质设计平台在深度学习训练过程中以海量文件为基础,数据量的规模一般是AI企业提升模型精度的关键手段,需要通过提取、分类、分析等处理流程对数以亿计的蛋白质结构图片反复迭代,从而提高模型的准确性,帮助生物技术专家识别和产生蛋白质。

  • 元数据集群在线按需灵活扩展,性能线性提升
  • 单文件系统可承载千亿级别文件数量,并且文件访问效率无衰减


为容器化训练提供数据底座支撑

 

AI蛋白质设计平台借助Kubernetes编排平台对训练任务及GPU等资源进行调度,将训练任务行在容器中。

  • LoongStore提供基于CSI的块接口及文件接口为Kubernetes平台提供数据存储访空间。
  • LoongStore设计了大量面向容器持久化存储的功能,使Kubernetes对存储能力进行规划和调度,使训练任务能通过PV管理和访问LoongStore中的训练数据。

 

四、龙存亮点

 

高效访问,缩短训练过程

 

  • 双活元数据架构
  • IB网络RDMA协议提升数据访问效率,降低延迟
  • 专用并行客户端,缩短IO路径
  • 小文件聚合,缩短训练时间

 

数据安全性保障

 

  • 数据全局冗余,无单点故障
  • 自动故障检测和恢复

 

减少总体拥有成本

 

  • 采用EC数据冗余模式提高硬件利用率
  • 可视化管理,降低运维难度。

 

2023-10-10
首页    人工智能    生命科学 AI 存储案例