甲骨文推出Oracle云数据科学平台
来源:计算机世界
2020-02-25
该平台提供七个新服务及功能,包括新的数据目录服务(用于发现、查找、组织、丰富和创建数据资产)、新的大数据服务(用于提供完整的Cloudera Hadoop实施)、支持通过SQL访问HDFS的新服务,以及用于运行Apache Spark应用的全托管式服务。

甲骨文公司近日发布Oracle云数据科学平台(Oracle Cloud Data Science Platform)。该平台的核心服务为Oracle云基础设施数据科学平台(Oracle Cloud Infrastructure Data Science),旨在帮助企业以协作方式构建、训练、管理和部署机器学习模型,提高数据科学项目的成功率。与其他侧重于数据科学家个人使用的数据科学产品不同,Oracle云基础设施数据科学平台提供共享项目、模型目录、团队安全策略、复用和可审计等功能,帮助数据科学团队提高效率。此外,Oracle云基础设施数据科学平台可以通过AutoML算法选择和调优、模型评估、模型说明等功能,自动选择最佳训练数据集。
如今,很多企业仅将数据蕴含的巨大潜能挖掘出了一小部分,这是因为他们的数据科学团队还不能轻松访问适当的数据和工具来构建和部署有效的机器学习模型,导致模型开发时间太长,无法持续满足企业对准确性和可靠性的更高需求,因而无法投入生产。
"有效的机器学习模型是数据科学项目取得成功的基础,但不同类型的海量数据会阻碍企业实施这些项目。"甲骨文公司数据和AI服务产品开发高级副总裁Greg Pavlik表示,"使用Oracle云基础设施数据科学平台,我们可以实现整个工作流程的自动化并建立强大的团队协作支持,以此提高各数据科学家的效率,确保数据科学项目为企业创造真正的价值。"
专为数据科学团队和科学家量身打造
Oracle云基础设施数据科学平台提供自动化的数据科学工作流程,通过下列功能节约时间并减少错误:
" AutoML自动算法选择和调优 - 可针对多种算法和超参数配置,自动运行测试过程。这项功能可以检查结果的准确性,并帮助确认目前选择的模型和配置是最佳方案。这不仅可以为数据科学家节省大量时间,更重要的是,这能够赋予不同水平的数据科学家专家级的能力。
" 自动选择预测性特性 - 自动识别大型数据集中的关键预测性特性,从而简化特性设计。
" 模型评估 - 生成一整套评估指标和适当的可视化工具,以便针对新数据来衡量模型性能,并且可以持续对模型进行排序,在生产环境中采取最佳行为。除了原始性能之外,模型评估还将考虑预期基线行为,并运用成本模型将误报和漏报的不同影响计算其中。
" 模型说明 -针对预测中的影响因素,Oracle云基础设施数据科学平台可对它们的相对权重和重要性提供自动说明。Oracle云基础设施数据科学平台首次将与模型无关的说明实现了商业化。举例来说,借助欺诈检测模型,数据科学家可以解释哪些因素是欺诈的最大动因,以便企业修改流程或实施保护措施。
众所周知,要将有效的机器学习模型成功投入生产,仅凭一人之力是无法实现的,这需要多个数据科学家团队协作完成。Oracle云基础设施数据科学平台提供强大的团队合作功能,包括:
" 共享项目 - 帮助用户组织、启用版本控制并可靠地共享团队工作内容,包括数据和notebook会话。
" 模型目录 - 帮助团队成员可靠地共享已经构建的模型,以及那些修改和部署它们所需的工件。
" 针对团队的安全功能- 允许用户控制对模型、代码和数据的访问权限,这已经与Oracle Cloud Infrastructure Identity and Access Management全面集成。
" 复用和可审计功能 - 支持企业跟踪所有相关资产,即便团队成员离开团队,企业也可以重现和审计所有模型。
借助Oracle云基础设施数据科学平台,企业可以提高部署模型的速度和成功率,生成企业级结果和性能指标来进行预测分析,从而取得积极的业务成果。
全面的数据服务和机器学习服务
Oracle云数据科学平台包含七项新服务,它们专为加速实现数据科学成果而提供全面的端到端体验。这七项新服务为:
" Oracle云基础设施数据科学平台:支持用户使用Python以及其他开源工具和库(包括TensorFlow、Keras和Jupyter)在Oracle云上构建、训练和管理新的机器学习模型。
" Oracle自治数据库新增的机器学习功能:机器学习算法紧密集成在Oracle自治数据库中,并新增了对Python和AutoML的支持。接下来,这些算法将与Oracle云基础设施数据科学平台相集成,支持数据科学家使用开源和可扩展的数据库中(in-database)算法来开发模型。这种将算法应用于Oracle数据库中数据的独特方法可减少数据的准备和移动的工作,从而加速实现成果。
" Oracle云基础设施数据目录:允许用户在Oracle云上发现、查找、组织、丰富和跟踪数据资产。Oracle云基础设施数据目录采用内置业务术语表,用户可轻松管理和发现合适的可靠数据。
" Oracle大数据服务:提供完整的Cloudera Hadoop实施,与其他Hadoop产品相比,该服务大幅简化管理,只需轻轻一点,即可为集群启用高可用性并实现安全性。Oracle大数据服务还包含适用于Spark的机器学习,企业可以使用一个产品在内存中运行Spark机器学习,尽可能减少数据移动。
" Oracle Cloud SQL:支持对HDFS、Hive、Kafka、NoSQL和对象存储中的数据进行SQL查询。CloudSQL的独特之处在于,与Oracle数据库进行对话的任何用户、应用或分析工具,都可以透明地使用其他数据存储中的数据,获得下推、横向扩展处理的优势,从而尽可能地减少数据移动。
" Oracle云基础设施数据流:完全托管的大数据服务,用户无需部署或管理基础设施即可运行Apache Spark应用,从而帮助企业更快地交付大数据和AI应用。与其他Hadoop和Spark服务不同,Oracle云基础设施数据流提供了一个窗口来跟踪所有Spark作业,您可以轻松识别高成本任务,排除问题。
" 适用于数据科学的Oracle云基础设施虚拟机:基于GPU的预配置环境,具有通用IDE、notebook和框架,可以在15分钟内启动并运行,每天收费30美元。
客户评价
AgroScout是一家致力于检测早期农作物病害的软件公司,帮助农民提高农作物产量、减少农药使用并增加利润。"我们的愿景是让全球5亿个农场的10亿农民,也就是全球30%的劳动力,能够以经济合理的方式使用现代农业技术。我们计划通过AI驱动的云端可持续农业技术来实现这一目标,这只用依靠低成本无人机、手机和农民的手动输入。"AgroScout创始人兼首席执行官Simcha Shore表示,"要成功达成这一愿景,就必须能够做到两点:管理好持续不断增长的数据流,使用基于AI的解决方案将数据转变为精准决策,产生规模化效应。Oracle云在速度、扩展能力和敏捷性上的优势帮助我们实现了梦想。如今,新推出的Oracle云基础设施数据科学平台为我们开辟了新的可能性,让我们的数据科学家能够以协作方式构建、训练和部署机器学习模型。这进一步帮助我们降低了成本,提高了效率,从而更快地拓展全球业务。"
IDenTV是一家提供基于AI功能的高级视频分析技术公司,包括计算机视觉、自动语音识别和文本语义分类器。"借助Oracle云基础设施数据科学平台,我们成功扩展了数据科学工作,以前所未有的速度创造业务价值。如今,我们的数据科学团队可以无缝访问数据,无需担心数据位置或访问机制的复杂度。利用环境中嵌入的TensorFlow、Keras和Jupyter Notebooks等开源功能,我们可以简化模型训练和部署任务,从而节省大量成本,以更快的速度获得结果。"IDenTV创始人兼首席运营官Amro Shihadah表示," Oracle云基础设施数据科学平台和Oracle自治数据库帮助我们在市场上增强竞争力,建立独特的优势。"
责任编辑:刘沙