计世网

我们该如何面对ZB时代的数据存储挑战?
作者:刘沙 | 来源:计算机世界
2019-09-06
面对这些爆炸性的数据,我们都有必要重新审视一下,目前的存储条件能不能满足这些需求。

 


  “我们已经到了数据大爆炸的边缘,随着5G、人工智能、机器学习、万物互联的发展,我们的数据量将从2018年生成的32ZB,大步跨到2023年的100ZB以上。”西部数据公司产品市场部副总裁朱海翔在2019开放数据中心峰会(ODCC)上这样指出。

  当前存储条件告急

  如今,数据不仅来自核心的数据中心和云,还来自电脑、手机、平板、摄像头等终端和边缘,这些数据大多是由人产生的。但是,到了2023年,全球超过90%的数据将由机器生成。

  很显然,面对这些爆炸性的数据,我们都有必要重新审视一下,目前的存储条件能不能满足这些需求。

  根据IDC的调研报告,2018年全球数据中心的数据存储量只有5ZB,而到2023年,这个存储量将增长到12ZB。但真正的问题是,2023年产生的数据将超过100ZB。“这意味着有大量数据由于种种原因没有被留存下来!”朱海翔强调,“事实上,很多数据在产生的时候我们常常意识不到它们的价值,需要把数据留存下来,进行分析后,才能更好的发掘这些数据的价值。这一情况给我们目前的存储架构、存储介质和存储密度提出了巨大的挑战:如何把这些数据都留存下来。”

  未来存储方向何在?

  在目前数据中心的存储介质中,基于闪存的SSD产品是年复合增长率最高的,达到每年44%。不过有一个容易被人忽略的事实是,在今后的3-5年中,大容量的企业级HDD也将保持34%的高速增长,到2023年,数据中心的大部分数据将会存储在HDD当中。

  朱海翔指出,有很多人说数据中心像是IT产业中的房地产行业,其实闪存更像是摩尔定律和贝聿铭的结合。而西部数据既有闪存技术,也有HDD技术,从24层到48层、64层、96层,再到100多层的3D NAND,每隔15个月,西部数据就能实现一次迭代。其中闪存产品之所以能够在数据中心保持高速发展,就是因为在横向、纵向和逻辑三个维度实现了三层叠加的扩展速度。

  从计算的角度来看,随着数据量的增加,负载应用将变得更特征化。不难看出,通用计算已经不是最佳选择,所以现在有很多新兴的计算技术被广泛应用到超大型的数据中心里。与此相比,现在的存储技术虽然改变了一些接口,增加了一些速度,替换了一些老的协议,但是真正的存储架构仍然是通用型的,针对数据中心和新兴的海量数据,大家并没有重新考虑,如何从存储的角度与系统相配合,推出一个专用的架构。而这正是西部数据重新思考的方向。

  分区存储让数据效益最大化

  “如果我们把数据中心看成一杆称,要称起ZB数据时代更好的存储密度的扩展,我们可以把分区存储技术作为一个非常重要的砝码。”朱海翔表示,“在下一代数据中心当中,如果我们需要重新审视和构建一种全新的存储数据架构,我们需要适应新型的计算技术,满足虚拟机、多租户、顺序化数据等等,而且在考虑这种新技术的同时,要更好地拥抱开源,拥抱标准化,和生态系统一起合作,推出全新的技术。”

  据了解,在过去五年SMR HDD商用化的过程中,西部数据已经积累了很多经验,通过与业界共同合作,实现了SMR HDD通过一些系统的优化,在数据中心里实现了更多应用场景的推广。“实际上我们是沿用了分区存储的技术,和NVMe标准化组织合作,推出了分区命名空间,这样我们无论是在数据中心中的HDD还是SSD,都可以使用同样的存储,以得到效益最大化。” 朱海翔说到。

  这会给SSD带来很多好处,首先是成本的降低,其次是功能可以与计算资源更好的匹配。通过分区存储技术,过去存在的写入限制变成了写入管理,可以推出更可靠可控的数据协同。

  朱海翔指出,在下一代数据中心中可能会用到的物联网、人工智能、机器学习等负载应用都会产生海量数据,而且都具有超高的读入性能要求,这些对于分区存储来说都不是问题。
 


  而为了配合各个行业的应用,西部数据还推出了ZNS NVMe SSD平台,ZNS NVMe SSD旨在降低写放大,减少内置DRAM,增加可用容量,并提供更高的吞吐量和更低的时延。将“来自系统端的虚拟化应用”和“每个命名空间内的逻辑分区”进行配对,同时与SSD的内部物理属性进行匹配,进而实现这些改进,有效减少数据存放低效能的现象。据透露,西部数据还会在明年推出20TB大容量的SMR HDD。

  朱海翔表示,相信通过延展西部数据在SMR HDD上的成功经验,能够涵盖数据中心中所有规模的存储介质的需求,能够和大家共同推动数据中心进一步发展和创新。

责任编辑:刘沙