当数据遭遇“爆仓”，你可以把它们都倒进“湖”里！

作者:刘沙 | 来源:计算机世界

2020-03-30

实施数据湖的组织比同类公司在有机收入增长方面高出 9%。

　　新冠肺炎疫情的蔓延让我们再次体会到了大数据的重要性：通过疫情电信大数据分析模型，可以统计全国人员流动的情况，从而帮助政府预判疫情传播趋势；通过密切接触者分析模型，可以判断可能产生的新高风险区域；通过智慧交通大数据，可以监测到热点城市的交通枢纽以及城市内部出行人流的强度，判断复产复工率……

　　事实上，不只是对于政府，对于企业来说，数据也是极其重要的战略资产。在AWS首席云计算企业战略顾问张侠博士看来，企业里的数据流，就像人体里的血液流一样重要。

AWS首席云计算企业战略顾问张侠博士

　　早在2017年，《经济学人》杂志就曾发出过"世界最有价值的资源不再是石油，而是数据"的论断。而在近两年所有IT人言必称的"数字化转型"中，一个很重要的内容就是把企业的数据资产用好。

　　从数据仓库到数据湖

　　其实，数据的价值在于从中提取出真正有用的信息，然后把这些信息转变成知识，再指导我们的行动。这些都离不开数据的存储、计算、分析等过程。

　　而在这个移动互联网时代，数据已呈现出指数级生长，数据的来源五花八门，数据的形式日益多元化，数据的使用者遍布各行各业，用来分析数据的工具也越来越多，传统的数据库已经不能应对数据的增长。

　　张侠解释到，传统的方法是数据库放在最下面，从ERP、CRM等业务系统中整理出数据，放在数据仓库里，然后再展示出商务智能。如今数据的来源已变成各种装置、网站、传感器和社交软件，如果还是走从数据库到数据仓库再到商务智能的老路，就会形成所谓的数据孤岛，无法满足数据的迅速增长。"这时，企业需要的是一个数据湖。"

　　张侠表示，数据湖不仅能解决上述的问题，还能兼容传统的数据仓库、数据分析方法，而且特别适合与机器学习这样的新技术结合起来，做更多预测性的分析。

　　那么，数据湖究竟是什么？

　　张侠解释到，数据湖是一个集中式存储数据的容器，这个容器可以存储各种各样结构化和非结构化的数据，这些数据从数据量上非常容易快速缩放，利用云计算海量存储的能力和各种查询能力，以及各种数据分析和处理的能力，可以直接对这些原始数据进行查询。在查询的过程中，还可以通过建目录和数据的转移、抽取等方式，把它们进一步归类，快速做各种各样的分析。数据湖有两个很重要的特点：一个是高可用、高持久、海量的数据，另一个是满足安全、合规、可审计的要求。

　　"打个比方，以前的数据流就像一条小河，我们知道这条河里大概会来多少水，我们有闸门可以处理、使用这些数据。但是到了移动互联网时代，新的海量数据爆发出来，我们很难掌握这些数据是什么性质，可能数据量会突然变得很大、很多，我们来不及整理。过去可能要花几个月、甚至半年时间才能把这些数据整理清楚，存在数据库里，再提取到数据仓库里，然后再使用它们。但现在我们只好先找一大片洼地，把所有数据像湖水一样先蓄在湖里，不过现在我们有工具可以直接查询它们。"

　　云上的数据湖到底什么样？

　　据了解，亚马逊很早就推出了有关数据湖的服务，2011年就有了数据湖的概念和一些开源应用。2016年左右，AWS推出了关键服务，开始把Amazon S3作为数据湖的核心存储。Amazon S3可以存储任何以二进位为基础的信息，包含结构化和非结构化的数据，可以把来自不同地方、不同形式的数据通过一定的方法提取出来，存储下来，做一个目录登记，存在数据湖的核心里，然后再用各种各样的分析手段把这些数据还原成数据仓库的性质，或者变成各种报表，或者变成各种预测，或者用来做机器学习的分析等等。

　　"从AWS的角度来讲，我们有相应的服务可以实现上述每一个功能。这些服务都是以云的方式提供的，而且非常容易上手。"张侠向记者介绍。

　　首先是Amazon S3，它可以存储所有类型的数据，有11个9的数据持久性，它在云上的三个可用区里存了六份，互为备份。它的后端有个叫Amazon Glacier的冷存储，把不常用的数据转存到这里，可以降低很多费用，只是再拿出来时需要多三四个小时，还有一个深度冷存储Deep Archive。此外还有一个非关系型数据库Amazon DynamoDB，存储键值类的数据，全球有大量键值配对的数据都存储在Amazon DynamoDB中。张侠补充到，"这两种是最基础的存储服务。"

　　Amazon RDS是云托管的关系型数据库，支持SQL Server、Oracle的数据库，开源的PostgreSQL、MySQL数据库，以及亚马逊专有的Amazon Aurora数据库。

　　Amazon Aurora是全方位托管的，可以兼容MySQL和PostgreSQL的纯云原生数据库。张侠强调，"这个数据库自推出以来，是AWS所有云服务里增长速度最快的，拥有大量用户。"

　　Amazon Redshift是云数据仓库，使用简单，可以扩展，成本是传统数据库的1/10左右。

　　Amazon EMR是用类似开源、Hadoop的方法来做大数据的集群分析。

　　Amazon Kinesis用来处理实时数据，包括四种不同类型，有的能直接处理视频的数据流，有的可以把数据直接导到关键服务，各自有不同的用法。

　　Amazon Athena是一种交互式查询服务，它让客户可以使用标准SQL语言、轻松分析Amazon Simple Storage Service （Amazon S3）中的数据。由于Athena是一种无服务器服务，因此客户不需要管理基础设施，只为他们运行的查询付费。Athena可以自动扩展，并行执行查询，即便是大型数据集和复杂的查询，也能很快获得查询结果。

　　AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据，加载数据到数据库、数据仓库和数据湖，用于数据分析。使用AWS Glue，在几分钟之内便可以准备好数据用于分析。由于AWS Glue是无服务器服务，客户在执行ETL任务时，只需要为他们所消耗的计算资源付费。

　　近日，Amazon Athena和AWS Glue也在由西云数据运营的AWS中国（宁夏）区域正式上线了。

　　张侠告诉记者，虽然数据湖是个好工具，但是建立安全的数据湖还是要面临一定挑战。在一般情况下，构建安全的数据湖，首先要把数据设置好，存储起来，然后把数据移动、加载到不同地方，进行清理，编写数据目录，再配置并实施安全性与合规性策略，之后在需要的时候就可以把这些数据拿出来做各种分析。

　　为了帮助企业用户更快的使用数据湖，AWS专门推出了AWS Lake Formation服务，让上述建立数据湖的工作可以自动化操作，让企业在短短几天内就完成数据湖的建设工作。

　　不可或缺的数据分析

　　AWS全球副总裁及大中华区执行董事张文翊表示，"AWS可扩展、可靠的云存储，加上广泛的分析服务，使客户比以往任何时候都更容易收集、存储、分析和共享数据。中国区域的客户可以从任意多的数据源传输和处理数据，整合数据到数据湖，并且可以选用多种AWS分析服务，分析所有数据。"

　　据介绍，AWS提供的数据分析组件包括：

　　数据迁移和移动工具，如AWS Database Migration Service数据库迁移服务 (DMS)， AWS Snowball (雪球)，AWS Storage Gateway， AWS Backup数据备份服务。

　　数据存储工具，如Amazon S3、Amazon Glacier、Amazon DynamoDB，以及非关系型数据库、Amazon RDS关系型数据库、Amazon Aurora纯原生的云数据库、Amazon ElastiCache云上内存式数据库，还有Amazon Neptune基于图形的数据库。

　　数据湖，最主要的三大元素是Amazon S3/Glacier， AWS Glue和AWS Lake Formation。

　　数据分析工具，如Amazon Redshift数据仓库，Amazon EMR大数据分析，AWS Glue无服务器数据分析，Amazon Athena (雅典娜)交互式分析，Amazon Elasticsearch运维分析，还有Amazon Kinesis实时数据分析。

　　机器学习工具，如图形可视化的Amazon QuickSight、 Amazon Polly、Amazon Transcribe、Amazon SageMaker。其中Amazon SageMaker是人工智能服务，很快会在中国推出。

　　张侠补充到："在大数据分析服务的全景图中，大多数服务都已经在中国落地，目前已有很多客户在使用。"

　　让更多企业通过数据洞察先机

　　Aberdeen 的一项调查表明，通过数据成功创造商业价值的企业将胜过同行，实施数据湖的组织比同类公司在有机收入增长方面高出 9%。

　　目前全球范围内有大量公司都在使用AWS的数据湖和数据分析工具，无论是互联网公司，还是传统企业公司，几乎覆盖了各行各业。

　　张侠强调，"AWS的创新都是围绕客户需求来做的。"亚马逊自己就是云数据库的受益者。很多业内人都知道，亚马逊曾经是Oracle全球数据库最大的用户，它用了7500多个Oracle数据库，存放75PB数据。亚马逊的1000多个不同的团队，如运营、电商、市场营销、库存等等，过去都是基于Oracle的数据库。在过去一年半到两年时间里，亚马逊全方位迁出了Oracle的数据库，迁移到了自己相应的产品云数据库中。此次迁移解决了过去扩展困难、费用昂贵，需要向Oracle支持高额费用等一系列问题，减少了数据库费用成本60%，减少了数据库管理费用70%，增加的关键性能高达40%。

　　不仅如此，亚马逊还在企业内部建了一个专供内部使用的数据湖，这个数据湖把亚马逊的数据整合在一起，存储量从50PB长到100PB数据。通过这个数据湖，亚马逊每天可处理多达60万的分析任务，做各种各样的数据分析，从给用户的推荐、各种运营信息、库存信息、物价信息，都可以通过数据湖来实现。"这也是亚马逊的核心竞争力之一。"张侠表示。

　　在对数据管理极为严苛的金融行业里也不乏成功应用。

　　纳斯达克交易所每天要处理300-500亿条信息，构建了基于Amazon S3的数据湖以后，不仅降低了成本，把上市时间缩短为原来的1/3，还可以选择无限制增加存储的数据量，在其数据湖中支持数十年的纳秒级消息数据。

　　同样是属于金融行业的美国金融监管机构FINRA每天要对超过1500亿个事件、20PB的数据运行复杂的监视查询，以检测和分析非法的市场活动。FINRA把大数据应用迁移到亚马逊的数据湖进行提取和处理后，系统提高了敏捷性和速度，每年可节省1000-2000万美元的成本。

　　中国也有不少企业在使用亚马逊的数据产品，如Club Factory。这是2016年由嘉云数据在杭州创建的一家时尚、美容和生活领域的电子商务商店，它整合了上百万个供应商，上游有数千万个SKU，下游覆盖27个国家和地区，积累了1亿多全球用户群。Club Factory每天要处理15亿条各种行为的分析，支撑80多位工程师的数据分析和算法需求，支撑180个活跃数据的分析调度任务，同步4000多个各种数据到Amazon Redshift，支撑的数据总量达600TB。基于AWS数据湖架构建设数据化智能化的电商平台，Club Factory实现了业务任意规模的扩展，以及人工智能+商品、人工智能+消费者、人工智能+供应链的全方位技术创新，有效节省了存储成本，降低了ETL和操作层面的复杂度，以及额外的工作量。

　　张侠指出，基本上各行各业、各种规模的企业都可以采用数据湖为自己搭建数据应用平台。我们可以看到，很多企业用户都通过使用数据湖和数据分析，为企业的创新和发展洞察先机。随着人工智能、物联网、5G、边缘计算等技术普及，数据湖的应用和作用性也将会越来越强。

责任编辑：刘沙

当数据遭遇“爆仓”，你可以把它们都倒进“湖”里！

专题

最新发布