非结构化数据越来越复杂，存不下、管不好，怎么办？

作者:宋辰 | 来源:计算机世界

2020-10-31

更多的数据才能支撑人工智能、机器学习训练模型的准确性，从而产生更好的分析、更好的业务洞察力，直至产品化。

普遍的观点认为，数据是一种资产、一种资源，它可以被拥有和交易。就像《经济学人》在2017年提出的那个著名的观点：数据是“世界上最宝贵的资源”，数据是未来的石油。

现在我们已经不难理解为何把数据比喻成石油，石油可以被占有、提炼、再加工和出售，数据也一样。我们可以通过加密技术来实现对数据访问权的控制，可以提炼和再加工数据，让它最终变成商品和服务。有些公司已经在数据挖掘和分析上尝到了甜头， Google搜索总监Peter Norvig却说：我们没有更好的算法，我们只是有更多的数据。

这背后的原因就是——更多的数据才能支撑人工智能、机器学习训练模型的准确性，从而产生更好的分析、更好的业务洞察力，直至产品化。

来自IDC的调研数据显示，2025年新创建的数据总量将高达175.8ZB，但却只有17ZB的数据被存储。如今，每天有超过 50 亿消费者与数据互动，到 2025 年，这一数字将达到 60 亿，这些人将至少每 18 秒进行一次数据交互。

为什么我们生活在一个真实的数字世界中，数据的价值和竞争优势也被广泛认可，但实际存储的数据比例如此之小？可能被流失掉的数据能否被激活，以发挥数据经济更大的价值呢？

数据流失，企业被迫妥协

这就像一个悖论，一方面是人们的行为创造了更多的数据，另一方面，更多的数据的价值在流失。在希捷的一份名为《数据新视界》的调研报告中显示，受访企业仅采集了 56% 的可用数据，也就是说，几乎一半的数据流失掉了，而在这56%的捕获数据中，企业也只是利用了其中的 57%。

我们现在面临一个很大的挑战——如何有效、安全且简单地将这些爆发性增长的数据存储到我们的IT环境中。

“企业被迫在数据经济学方程式中妥协，因为存储更多数据的成本似乎超过了可以从中获得的价值。”希捷科技首席执行官Dave Mosley在9月底举办的首届Datasphere年度峰会上表示。

企业为了获得更多的客户洞察，就需要获取更多的数据，这种“全天候”的数据存储势必要在基础设施的运营和人力资源上投入更多的成本。

以医院为例，医院创建和管理的各类数据包括：患者信息、预约信息、保险和账单、医疗器械检查、诊断与治疗、运营和财务数据，以及广告数据。法规要求医院在患者死亡后还要将这些数据保存数年。未来，由于各种原因，医院可能还需要记录和保存远程诊疗的视频内容、外科医生的手术动作，甚至机器人手术过程。由于涉及隐私以及合规的要求，一部分数据需要高度保护，也有一些数据属于休眠数据，未来可能被激活。这就要求企业必须能够采集正确的数据，存储在需要的地方，并以适当的方式、在适当的时候提供给决策者。

企业不仅需要以更少的成本做更多的事情，存储更多的东西，还需要面对跨不同位置、多个云和平台的数据管理难题。

对象存储重构数据价值

在工业经济时代，GDP作为极具代表性的经济数据，被认为是衡量一个经济体活力的最有效的指标。

如今，数据经济时代来临。无论消费者还是企业，我们都是积极参与者。作为消费者，我们用地图导航、用打车软件叫车、远程操控智能家电，我们几乎每天都与它打交道；在企业中，数据管理不再仅限于IT职能的范围内，它在组织之间流动，在负责创造价值的部门和跨职能团队之间流动，通过不同数据集的DataOps数据模型来实现。

数据的存储方式和位置对企业从数据中获取价值至关重要。IDC 研究总监Phil Goodwin就曾表示：“无论结构化、半结构化，还是非结构化数据，也无论通过人抑或机器采集的数据，无论数据存储在数据中心还是云端，它们都是打造竞争优势的新基础。”

与爆炸性的数据增长一同到来的，还有正在悄然发生变化的数据的来源。随着5G推广步伐的加快，越来越多的物联网设备向边缘输送数据。IDC的“全球数据圈”研究显示，2015年产生的新数据中，65%在终端创建，其余35%在核心和边缘创建，但核心和边缘创建数据的比例到2025年时将达到80%。从边缘立即传输到核心的数据量将翻倍，从 8% 增长到 16%。这意味着，企业将管理更多的动态数据，边缘要能够存储关键数据并进行分析，以应对终端交易和服务的低时延要求。直到服务器完成数据分析前，数据流都有可能缓存在存储介质中。

“对象存储对于大容量数据集的数据处理来说是理想的解决方案，让企业有效存储TB级、PB级数据。”希捷科技副总裁兼数据、企业数据解决方案总经理Ken Claffey在接受采访时表示。

他解释道，一方面，从存储容量的角度来说，对象存储这种数据存储形式可以很方便地被扩展到PB乃至EB级别；另外一方面，可以便捷、灵活地通过元数据标签来替代原来传统的文件系统，后者有时候非常复杂，而且随着容量增长，性能还会出现问题。“我们还可以通过纠删码这种形式更有效地来进行数据保护，这主要体现在可以降低花销，并最大化利用硬盘的容量。”

Cortx揭开希捷超大规模存储蓝图

容量更高的硬盘显著降低了存储基础架构的总拥有成本。相对于传统企业级客户，云服务商在采用大容量硬盘的进程会领先一到两代，这就意味着，云服务商通常可以比传统企业级客户更快地享受到大容量硬盘所带来的TCO方面的优势。

来自希捷的数据显示，同样是1PB的数据存储量，如果将8TB HDD换成18TB HDD，TCO则可以降低32%。今年9月，希捷刚刚宣布了18TB的硬盘驱动器。预计今年晚些时候投入量产的采用热辅助磁记录技术HAMR的HDD容量可以达到20TB，到2026年容量将增加到50TB。而对于诸如人工智能、大数据分析这些需要每TB的IOPS的应用，希捷则会建议客户建议采用双磁臂技术MACH.2，以在硬盘容量和性能间、TCO上求得平衡。

大规模数据中心需要应对大量的非结构化数据和边缘数据的挑战，“我们已经使用工业标准级别的硬件，通过通用的硬件来实现云化、高效的数据存储、横向的数据扩展以及性能方面的优化。”Ken说，“接下来，希捷还将通过对象存储软件的发布和开源，将对象存储推广到全球的企业用户中。”

而让对象存储实现更加智能化的，就是在Datasphere峰会上，希捷推出专为企业设计的Cortx智能对象存储软件。

Cortx专为分布式、多站点部署而设计。据Ken介绍，Cortx首先可以实现数据直接落盘，这就相当于我们直接去写一个裸设备，从而跳过了复杂的本地文件系统；第二，Cortx可以实现“多层纠删码”，这让更大规模数据存储的场景下的数据高可用性成为现实；第三，Cortx通过键值对的方式实现元数据管理，可以非常方便地进行横向扩展和数据的实时搜索；第四，Cortx可以对存储硬件进行自动化监控和健康管理。

以Cortx支持MACH.2高性能机械硬盘为例，双磁臂设计与Cortx的结合可以使机械硬盘的吞吐量达到400-500M/s。

Cortx是一个100%开源的软件，这就意味着，除了实现社区驱动的功能路线图，加快创新和摆脱供应商锁定之外，希捷还将从数据中心堆栈中消除对象存储软件许可的成本。“Cortx从无到有，旨在解决IT组织面临的许多新兴数据管理和成本挑战。”

2015年，Cortx从开发者社区中诞生出第一行代码。“现在从事人工智能、机器学习、还有云计算、高性能计算这些领域的开发者愿意来参与到这个项目里面来的话，可以在GitHub上的CORTX社区中下载。Cortx软件从设计之初就是为这些领域服务的。”Ken说。

除了是“石油”，数据还有可能是“阳光”，它无处不在，它为数据分析提供绿色动能。

责任编辑：宋辰

非结构化数据越来越复杂，存不下、管不好，怎么办？

专题

最新发布