计世网

8倍性能提升,Cloudera携手NVIDIA加速数据科学
来源:计算机世界
2021-08-09
英伟达和Cloudera宣布将加深在数据平台方面的合作。

 

近日,英伟达和Cloudera宣布将加深在数据平台方面的合作。最新版本的Cloudera Data Platform采用通过NVIDIA技术加速的Spark 3.0,能够帮助操作团队实现8倍性能提升,可以利用近乎无限数量和种类的数据,支持企业加快决策速度,进一步赋能企业加速数据科学。

企业的数据科学问题

随着企业数字化转型的加快,在提高工作的灵活性的同时,也给企业数据工作流带来了新的挑战。

首先,面对大数据用例的持续增长,企业在数据模型构建、训练和迭代的时间上不断增加。

其次,大规模的CPU基础设施对于进行大数据操作来说是非常昂贵的,这也在不断增加企业的运营成本。

最后,生产大规模的数据处理操作需要重构和切换,周期时间增加,企业的时间成本也有所提升。

据介绍,以英伟达 GPU 计算功能支撑的 Cloudera Data Platform 可以利用近乎无限数量和种类的数据,支持企业加快决策速度。

美国国税局应用案例

近日,NVIDIA数据科学产品集团高级总监Scott和Cloudera机器学习副总裁Sushil共同分享了美国国家税务局的通过Cloudera和NVIDIA的集成,打击欺诈和身份盗窃,加速端到端工作流程的成功案例。

美国国家税务局有超过300 TB的数据库需要数据科学家Tylor进行整理,以便寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但在大批CPU服务器长时间工作之后,也没有完成数据整理工作。

此后,Cloudera的解决方案工程师Nasheb Ismaily向美国国税局数据分析师技术支持团队的经理Rahul Tikekar建议使用自带GPU加速Apache Spark 3.0软件的Cloudera Data Platform。对软件进行快速测试后,在没有修改任何代码的情况下,Tylor表示工作中的许多步骤加快了5倍,但是有几个部分仍然滞后。

随后,NVIDIA数据科学家团队对代码的核心内容进行了检查,发现一些数据结构非常糟糕的任务仍在CPU上运行后,编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中。结果显示,所有任务都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。

美国国税局研究和应用分析与统计部门技术主管Joe Ansaldi表示:“通过Cloudera和NVIDIA的这一技术整合,能够利用以数据为依据的洞察来推动关键任务用例。”

“目前正在应用这一技术整合,这使得数据工程和数据科学工作流程以一半的成本获得了超过10倍的速度提升。” Ansaldi补充道。

写在最后

去年,Cloudera与NVIDIA展开合作,借助NVIDIA GPU计算功能,Cloudera在公共云和私有云帮助企业加速数据工程、分析、机器学习和深度学习性能。

今年4月,Cloudera再次宣布Cloudera Data Platform集成Apache Spark 3.0的RAPIDS加速器。该软件部署在NVIDIA计算平台上,能够使企业加快数据管道,并突破数据和机器学习工作流的性能边界,以推动更快的人工智能采用速度,并在不更改任何代码的情况下提供更好的业务成果。

如今,面对数字化转型和企业发展带来的大量数据,凭借由GPU驱动的服务器所组成的Spark集群,企业能够加速工作进展,并助推企业高效处理所掌握的海量数据。

未来,Cloudera 与 NVIDIA 表示将继续合作,致力于为企业提供必要的技术支持,帮助企业更好地理解、处理数据,并充分发掘真正的 AI 转型潜力。

责任编辑:王莉娟