药融云数字科技有限公司(简称"药融云")为顺应全球生物医药产业数智化发展态势,将药融圈线下数据、药融圈会议数字化资源、药融圈原料药信息平台进行整合,整合后几个平台的所有数据约有 200T ,需要进行本地存储,并进行读取分析。药融云原本采用的是基于 HDFS 的分布式文件存储系统,但在使用过程中发现如下问题:
1. 访问不便、小文件读取速度慢,由于 HDFS 不支持并发写入,员工无法同时访问同一文件。且 HDFS 无法高效地对大量小文件进行存储,会占用大量的内存影响设备运行,导致小文件读取速度慢影响工作效率。
2. 占用空间、扩容成本高,由于 HDFS 集群的副本数默认为 3 ,占用存储容量,导致默认空间利用率只有 33.3% ;随着数据不断增长,扩容成本越来越高,难以负担不断增长的支出。
3. 缺乏可视化界面,导致运维、部署不便,由于 HDFS 每个配置文件需要通过手工配置,对 IT 运维的技术能力要求高,日常维护、调优也消耗 IT 大量时间、精力。