计世网

谁来助你实现云端数据分析
作者:焦旭(编辑) | 来源:Intel
2018-07-14
金山云携手英特尔研发并推出新服务,在中国市场实现差异化云存储业务。企业过去通常需要1到3个月才能完成Apache Hadoop的部署。现在,在采用金山云KMR后,只需几分钟即可完成部署。

 

编者按:

金山云与英特尔紧密合作,现已对其数据中心基础设施进行了优化,并打造了差异化云端分析服务。金山云凭借KMR现已在医疗服务、电子商务和游戏行业赢得了众多新客户。虽然行业竞争异常激烈,但这一新服务将会帮助金山云留住现有客户,在客户已有的可信数据平台上添加强大的分析功能。

云服务提供商想要赢得并留住客户,所面临的竞争异常激烈。要想发展壮大,云服务提供商就必须保证不断创新,帮助客户从数据中获得新的洞察,找到创造额外价值的方式,从而帮助客户推动各项业务的发展。

金山云作为中国领先的云服务提供商,提供图片、视频和销售日志等多种数据的云存储服务。客户可以利用金山云的云服务器、庞大的云存储空间、负载均衡和云关系型数据库,动态分配相关资源,以满足自身的业务需要。金山云的云存储服务可以确保客户业务的持续性,改善总体拥有成本(TCO)。

当前,金山云数据存储量达EB级,单日新增数据超过1PB。金山云不断创新,与英特尔合作,探索、研发并推出了一项大数据分析和深度学习服务,可增强现有金山云存储平台的性能。凭借这一差异化服务,金山云在云服务市场上获得了竞争优势。

金山云大数据高级架构师倪煜表示:“我们与英特尔合作,学到了他们与其他全球云服务提供商的合作经验。这加快了我们学习的速度,让我们能够快速推出新服务,并借此赢得新客户。” 

在云存储服务中添加数据分析和深度学习

金山云和英特尔很早之前便建立了深入合作创新的伙伴关系。双方共同发现了一个新的市场机遇,可以充分利用英特尔至强处理器,通过新的分析功能来增强金山云的对象存储服务(KS3)。利用这一增强的服务,客户可从存储在KS3云端的数据中获得切实可行的洞察。更重要的是,这种新服务的成本低,而性能不受影响。

金山云携手英特尔共同开发并推出了大数据分析平台Kingsoft Cloud MapReduce(KMR),这一平台能够帮助客户快速构建数据分析集群并处理海量数据。KMR虽然基于Apache Hadoop,但是也可以通过Apache Storm和Apache Kafka用于分析实时数据。KS3基于对象存储,可通过KMR直接查询。因此,客户可以通过这种方式使用Apache Hadoop,其成本低于大数据分析通常采用的块存储方式。

KMR与KS3结合使用,让客户能够在云端分析现有的数据。KMR是KS3的增强服务,客户借此可以从现有的数据和平台中获得更多价值。

KMR是一种托管集群服务,构建在数百个双路英特尔至强处理器服务器节点之上。每台服务器都部署了英特尔数据中心级固态盘,可为处理器提供极大的数据吞吐量。每台服务器采用一个英特尔万兆以太网融合网络适配器,集群节点因而可以互相共享数据,这同时也保证了严苛的数据中心/云端环境中服务器的灵活性和可扩展性。另外,还采用英特尔事务性同步扩展(英特尔TSX)对并行工作负载性能进行了优化。

KMR基于Apache Hadoop和Spark等计算框架。客户可以使用金山云KMR基于Web的管理控制台创建集群,也可以为虚拟机配置内核、内存和磁盘空间。客户可以选择集群的节点数量,也可以在控制台中添加新的节点,逐渐对集群进行扩展。KMR集成了Ambari和Ganglia等集群监控管理工具,可以通过基于Web的管理控制台配置和使用。除此之外,KMR还与金山云KS3、金山云表格数据库服务和金山云关系型数据库服务(KRDS)等云服务实现了集成,以提供端到端的大数据解决方案。这些数据也可以存储在本地的Hadoop分布式文件系统(HDFS)中。

由于实现了各项云服务的端到端集成,金山云得以在行业竞争中脱颖而出。例如,KMR拥有金山云KS3的访问接口。KMR集群中运行的MapReduce和Apache Spark 可以直接将需要处理的数据传出KS3,然后再将结果写回KS3。各项云服务实现端到端集成之后,客户可以使用KS3确保原始数据和计算结果在集群释放之后永久存储在云端,KS3这一服务的存储成本相对低廉,数据存储高度可靠。金山云按时间对Apache Hadoop集群进行收费,客户因此可以将他们的结果存入KS3(对象冷存储),随时释放Apache Haddop集群,从而节省相关成本。


金山云大数据分析集群的解决方案架构

如何帮助客户实现云端分析

金山云与英特尔共同开发协作,推动其云存储服务成功转型为提供云分析服务。这项新服务帮助金山云吸引了众多新客户和新型工作负载,让金山云在市场竞争中获得了差异化优势。

例如,金山云凭借KMR赢得了医疗领域的一个新客户。这家医院有总计有几百TB的数据,临床文档库(CDR)包含近十亿条患者诊断信息。KMR部署完毕之后,用户可以在几毫秒之内找到他们需要的信息,也可以快速获得分析结果。另一新客户运营着一个电子商务网站,产品需求受促销活动的影响非常明显,难以掌控。客户采用KMR之后,其电子商务网站与金山云相连。KMR可快速创建Storm和Kafka集群,构建实时数据处理系统,将数据处理结果写入MongoDB数据库。该客户现已具备数据分析实力,内置云也具有迅速的可扩展性。这一方式的总体拥有成本远低于构建企业自有解决方案,推出速度也远快于后者。

某网络游戏公司的日志文件大小总计有数百GB。以前,这些文件存储在一个MySQL数据库中,并且需要定期查询以生成报告和关键绩效指标(KPI)。这种方式的数据存储成本很高,系统的可用性也得不到保障。此外,整合不同的数据集必须由人工操作才能完成。该公司采用KMR统一存储和处理日志数据之后,KMR可以快速搭建集群环境,并根据游戏玩家的数量进行扩展。数据可以存储在KS3中,通过KMR进行查询,这样能够节省人力,提高效率,大幅降低存储成本。

不难看出,客户之所以选择云端大数据处理,是因为这种解决方案灵活、高效、便于部署和易于扩展。事实证明,金山云的客户最青睐灵活的云服务。

云服务提供商可从与英特尔的合作中获得工程设计专业知识,包括Apache Hadoop和Spark,以及云计算中广泛使用的其他技术。升级至新一代英特尔至强处理器可显著提升吞吐量,大幅增加服务器上虚拟机的数量。这样可以降低总体拥有成本,帮助云服务提供商从数据中心资产中获得更多价值。在这一点上,金山云无疑是属于起步最早的一批。

得益于工程师间长期的合作

金山云成立于2012年,此后英特尔便一直与该公司合作,制定解决方案的详细规范,对计算、存储和网络领域的所有设备和平台进行基准测试和优化。双方携手推出了一种软件定义基础设施(SDI),对金山云数据中心的基础设施进行了优化和现代化。

倪煜表示:“英特尔与多家全球最大的云服务企业合作,他们的工程师非常了解数据分析和云技术。英特尔帮助我们发现了可以涉足的服务领域,与我们一同设计了这一平台。” 

金山云已经在英特尔架构上实现了标准化,2018年下半年所用处理器将从英特尔至强处理器E5-2690 v4升级至英特尔至强可扩展处理器6132,进一步增强金山云KMR的计算性能和扩展能力。英特尔工程师从一开始就在金山云的数据中心和英特尔实验室中使用实际的基础设施同步进行基准测试工作。英特尔与金山云一同分析了总体拥有成本,确认数据中心现代化可以为金山云带来可观的利润。

英特尔工程师与金山云一同优化了该公司的网络,采用了开源数据平面开发套件(DPDK),帮助改善虚拟开关和防火墙等网络功能的网络处理性能。

英特尔利用英特尔数据分析加速库(英特尔DAAL)帮助金山云优化深度学习工作负载的性能,同时还利用Apache Spark的分布式深度学习库BigDL来加快处理速度。

英特尔将继续与金山云合作,探索更大的优化空间,发现其他新的服务机会,帮助金山云进一步打造差异化云业务。金山云目前正在部署英特尔至强可扩展处理器,同时正在评估英特尔的其他技术,希望优化机器学习工作负载的性能。

倪煜表示:“在搭建KMR的过程中,英特尔不仅提供强大稳定的硬件平台,还提供了BigDL和Spark的其他软件优化支持。对于改善KMR在数据分析和机器学习应用方面的性能而言,这些都非常重要。” 

金山云还与英特尔合作开发并推出了金山云深度学习平台(KDL),帮助客户从数据集中获得更深刻的洞察。这一系统可以提供人工智能云服务(AIaaS),帮助客户使用应用程序编程接口(API)进行深度学习训练和推理;也可以用于图像分析、图像识别、视频识别和语音识别等应用场景。KDL以容器为构建基础,支持TensorFlow、Caffe和MXNet深度学习框架。客户无需搭建深度学习环境,就能专注于构建深度学习模型和运行训练及推理工作负载。所有数据都可以存储KS3中。英特尔帮助金山云优化了英特尔至强处理器上的深度学习性能。金山云利用英特尔至强可扩展平台大幅增强KDL的性能,在英特尔至强可扩展处理器6132基础上,采用Intel Caffe替换标准版Caffe进行优化后,同样使用8核进行ResNet50 的在线推理,可以获得超过40倍的性能提升。

责任编辑:焦旭