计世网

杰克孙的答卷与Hitachi Vantara的三步曲
作者:李丽 | 来源:计算机世界
2019-09-24
在Hitachi Vantara为杰克孙的公司定制了基于Pentaho和Hitachi Content Platform(HCP)的解决方案之后,公司不但实现了数据的集成与数据治理,还实现了企业级报表、仪表盘、可视化分析、机器学习和预测分析。

 

作为一家大型零售企业CIO的杰克孙,在这个盛夏即将结束前终于可以每天在日暮前大口呼吸这略带点秋意的空气了。看着如火轮般即将西下的夕阳,杰克孙今天的步履格外轻快,有多久没能在太阳下山前走出办公室,杰克孙的记忆已经有些模糊了。

对着车镜,杰克孙还是习惯性地捋了捋那日渐稀疏的薄发,擦了擦略带油光的、“智慧”的脑门。只是今天,杰克孙看着镜子里的自己,嘴角上扬,竟然平添了几份帅气。笑容舒展,心情自然是极好的。打开车窗,一路迎着阳光,杰克孙暗自庆幸——虽然相见恨晚,但总算解了燃眉之急。

杰克孙所在的公司这两年来,一直在尝试把信息中心的重心向数据生产中心转移。数据对于一家零售企业而言,其价值无异于真金白银。到目前为止,公司已经上线了十多个ETL数据抽取工具。单是当初采购抽取工具的POC(测试)就占据了团队大量的时间。即便这几年是一路招兵买马,杰克孙这个CIO还是没一日空闲。团队里的数据分析师大量的时间,都花在不同平台之间手动加载数据、数据准备及数据抽取。粗略算算,公司现在的应用场景至少有20多个,难道让基层员工都掌握20个不同工具吗?杰克孙想想就直冒冷汗。有没有一家企业的软件,能解决全部的场景呢?哪怕是十个场景呢?杰克孙在心里给自己设置了底限。

Hitachi Vantara全球副总裁、中国区总经理戴建平,在拜访客户时有一个习惯,一定要在10分钟之内,让客户明白Hitachi Vantara能干什么。当他的中国销售团队拜访了杰克孙所在的公司时,或许他还不知道杰克孙内心的小火苗已经开始燃烧。


Hitachi Vantara全球副总裁、中国区总经理戴建平

久经沙场的杰克孙压制住了内心的小激动。他知道Hitachi Vantara的人一定是有备而来,对公司的情况已经有了摸底排查。其实杰克孙又何尝没有事先做过“功课”呢?对Hitachi Vantara的市场口碑、成功案例他也是做过一番调查取证的。

俗话说,万事开头难,数据提取这第一步就是他的一直难以解决的心头大患。所以当他看到Pentaho 的这个数据集成方案介绍后,已经跃跃欲试了。因为Pentaho Data Integration可以让用户摄取、混合、清理和准备任何来源的不同数据。并且提供可视化工具,消除了手工编码操作失误和复杂性,使用户能够轻松获得优质数据。

“我们可以肯定地告诉客户的是,Hitachi Vantara的Pentaho数据平台可以满足他的全部场景需求。这一点也在后来的POC中得以验证,Pentaho是在该客户单一平台通过所有24个应用测试用例的唯一解决方案。为什么?根本源于 Pentaho的开放设计理念。开放的原则让我们在技术发展如此之快的今天大受其益。因为我们的平台是嵌入式设计,我们与目前市场上主流的数据产品都可以实现互嵌。也因此我们的平台在结构化数据,非结构化数据,流式数据处理以及跨多云的数据调度、数据传输方面,都体现出了独有的优势。”Hitachi Vantara数据与分析业务总监于希国如此谈到。


Hitachi Vantara数据与分析业务总监于希国

用戴建平的话来说,Hitachi Vantara的与众不同表现在两个方面:一是开源,二是高效紧密整合。Pentaho从开源起家,所以与各家厂商都有极好的兼容性,尤其是和本土开发商的相互迁移方面更加简单。更为关键的是Pentaho是一个无缝的端对端、对于多种数据源都可以进行高效紧密整合的工具。它可以把企业不同的数据源、不同的业务平台和链路打通,形成一个整体。

第一步:抽取正确的数据

是骡子是马总要拉出来遛遛,杰克孙在经过多轮测试之后,紧皱的眉头终于舒展开来。不过,作为企业的CIO,解决了数据提取也只是万里长征完成了第一步。

我们知道,数据抽取直接面对各种分散、异构的数据源,如何保证稳定高效的从这些数据源中提取正确的数据,是ETL设计和实施过程中需要考虑的关键问题之一。

Pentaho可以提供单一的数据集成平台和数据管理流程,所以大大简化了数据提取工作,并将提供数据标准化,并在数据管道中自动传递。也就是说借助Pentaho工具,可以对数据进行流处理,通过管道自动将经过提炼的数据集发布到一个常用的分析数据库,从而进行快速查询及分析展现。

Pentaho的业务分析平台则可将大数据分析的设计和部署速度提高到手动编程的10倍以上。而其内在的分析模块可更快向企业用户提供数据模型,实现自动建模及深度学习功能,从而提高业务与 IT 部门之间的协作能力。

第二步:缩短价值变现时间,智能化数据治理

让杰克孙暗自窃喜的是,一个平台不仅解决了繁琐的数据抽取过程,还让他不再为确保自己的数据管理和应用合规,而花费过多的时间和精力,因为这一过程可以轻松地被自动化。

“首战告捷”,杰克孙居然感受到了那种久违的、越战越勇的热潮从心头涌出。此时CEO的那句“要成为真正的数据驱动型公司”在他心里怎么瞬间就变得不再空洞了呢?杰克孙摸了摸脑门,推开信息中心办公室的那扇铁门,看着忙碌的兄弟们,心情有些复杂:是不是应该让他们适度休整一段时间再布置任务呢?可是打铁须趁热,时间不等人啊。

行业里的人都知道,数据治理战略是零售企业数据战略中的关键。因为数据治理为企业提供了在最佳时间将正确的数据交付给正确的人所需的知识。

但是对于在多云环境中运营业务的企业来说,数据治理的挑战是巨大的。这些年杰克孙参加过各种大大小小的行业高峰技术论坛,DataOps已经引起了他的关注,如果采用这种可以跨功能和跨业务的数据治理方式,无疑会让公司业务迈上更高的台阶。杰克孙也知道,要采用这些新兴的数据技术,企业必须改进传统的做法来提高处理数据的能力,而现在,这些问题已经迎刃而解了。

一切都是那么应时应景,当Pentaho 8.3进入杰克孙的视线时,他觉得是时候要建立起一个强大的数据治理框架了。对于公司来说,不仅仅要管理数据,而是要充分利用数据的商业价值,缩短数据价值变现时间。

Hitachi Vantara推出其数据集成与分析平台软件Pentaho的最新版本Pentaho 8.3。该版本引入了一系列支持DataOps的功能设计。比如, Pentaho 8.3    版本由于提升了与Hitachi Content Platform的集成能力,所以企业能够更轻松地读取、写入和更新HCP自定义元数据,使用系统元数据查询对象,使得数据搜索、治理及分析都更加方便。

Hitachi Vantara的DataOps,就是现在广泛谈到的“中台”的概念。也就说,Hitachi Vantara通过DataOps,在数据的消费者和管理者之间建立起了连接,为微服务获得后台数据平台的数据湖起到了很好支撑作用。

但是杰克孙仍有他的顾虑:直接对生产系统来做数据分析,势必会对性能产生影响。

“如果没有做好数据清洗,没有很好的数据质量管理,分析结果一定是有问题的,这是企业最常遇到的普遍问题。所以今天我们谈大数据,有一个非常重要的环节——数据脱格,建立数据湖。仅把原始数据堆在那儿并不是我们真正所需的数据湖,而是要有元数据管理。这也是为什么对象存储在今天越来越受欢迎的原因,因为它是建立有价值的数据湖一项重要的、离不开的技术。对象存储有了元数据管理,在完成数据脱格之后,才能够把数据更好地管理起来,从而为后续的数据质量治理、数据管理打好基础。”于希国终于打消了杰克孙的顾虑。

最终,杰克孙的公司通过实施Pentaho解决方案,不仅快速集成了数据,还实现了从前无法实现的来自不同地区的所有数据的汇总,构筑起了真正的企业数据湖。企业也因此获得了针对每个市场的洞察,以推动新产品和新服务的开发。并且节约了数据集成人力,显著提升了效率。

第三步:向高级预测分析迈进

IDC曾经发布的一份白皮书显示,2018年全球数据体量达到了33ZB,但其中只有2.5%的数据得到了分析和利用。Hitachi Vantara认为,也许潜在的机会就藏在未被分析的97.5%的数据里。如何探索这遗漏的97.5%?或许答案就在数据即服务、数据治理和数据分析中。

随着新型智能企业应用的出现,商业智能分析(BI)将被嵌入到企业应用中。为了降低数据分析的复杂性和对经验模型的依赖,在传统BI软件产品中加入人工智能或机器学习功能模块已成为必然。然而大多数企业都在将模型投入工作的过程中陷入挣扎,因为数据专业人员时常在孤岛中开展业务,并在为更新工作流建模而准备数据的过程中遇到瓶颈。

现在,Hitachi Vantara已经开始通过Pentaho来融合BI和大数据。通过AI、机器学习技术实现从数据抽取到数据湖的建立到数据挖掘分析。

而Pentaho平台以端到端的现代化数据架构一站式地帮助企业冲破诸多障碍。例如,Pentaho可以简单高效地将多种大数据源结合在一起,打破数据孤岛;通过不同语言和机器学习库的集成,使数据科学家能够更快地、无缝地训练、调整、构建和测试其模型;与此同时,Pentaho允许非数据专业人员轻松地将数据科学家开发的模型直接嵌入到运营工作流中,并实现自动化建模及流程进行模型更新等工作,这使得AI技术在大数据应用中更加平民化。。

同样,在Hitachi Vantara为杰克孙的公司定制了基于Pentaho和Hitachi Content Platform(HCP)的解决方案之后,公司不但实现了数据的集成与数据治理,还实现了企业级报表、仪表盘、可视化分析、机器学习和预测分析。

由此,杰克孙的这个“数据生产中心”总算交出了第一份开创性的答卷。“看来这个季度能给兄弟们多分不少奖金了。”——想着今天CEO满是赞许的眼神,杰克孙心里暗自盘算着……

责任编辑:李丽