计世网

2019大数据发展关键字:技术融合、产业深化
来源:中国信息通信研究院
2019-12-18
本白皮书在前三版的基础上,聚焦一年多来大数据领域在技术、产业、数据资产化、数据管理、数据安全等方面的进展和趋势,梳理主要问题并进行展望。

 

12月10日,中国信息通信研究院发布了《大数据白皮书(2019年)》,这是继2014、2016和2018年之后,中国信通院第四次发布大数据白皮书。本白皮书在前三版的基础上,聚焦一年多来大数据领域在技术、产业、数据资产化、数据管理、数据安全等方面的进展和趋势,梳理主要问题并进行展望。

纵观整个白皮书,2019年大数据发展的关键字可以概括为:技术融合、产业深化、数据资产、数据合规。

技术融合

当前,大数据体系的底层技术框架已基本成熟。大数据技术正逐步成为支撑型的基础设施,其发展方向也开始向提升效率转变,逐步向个性化的上层应用聚焦,技术的融合趋势愈发明显。

算力融合:多样性算力提升整体效率

随着大数据应用的逐步深入,场景愈发丰富,数据平台开始承载人工智能、物联网、视频转码、复杂分析、高性能计算等多样性的任务负载。同时,数据复杂度不断提升,以高维矩阵运算为代表的新型计算范式具有粒度更细、并行更强、高内存占用、高带宽需求、低延迟高实时性等特点,以 CPU 为底层硬件的传统大数据技术无法有效满足新业务需求,出现性能瓶颈。

当前,以 CPU 为调度核心,协同 GPU、FPGA、ASIC 及各类用于 AI 加速“xPU”的异构算力平台成为行业热点解决方案,以 GPU为代表的计算加速单元能够极大提升新业务计算效率。

不同硬件体系融合存在开发工具相互独立、编程语言及接口体系不同、软硬件协同缺失等工程问题。为此,产业界试图从统一软件开发平台和开发工具的层面来实现对不同硬件底层的兼容。

流批融合:平衡计算性价比的最优解

流处理能够有效处理即时变化的信息,从而反映出信息热点的实时动态变化。而离线批处理则更能够体现历史数据的累加反馈。随着技术架构的演进,流批融合计算正在成为趋势,并不断在向更实时更高效的计算推进,以支撑更丰富的大数据处理需求。

TA 融合:混合事务/分析支撑即时决策

TA 融合是指事务(Transaction)与分析(Analysis)的融合机制。混合事务/分析处理(HTAP)的设计理念是为了打破事务和分析之间的那堵“墙”,实现在单一的数据源上不加区分的处理事务和分析任务。这种融合的架构具有明显的优势,可以避免频繁的数据搬运操作给系统带来的额外负担,减少数据重复存储带来的成本,从而及时高效地对最新业务操作产生的数据进行分析。

模块融合:一站式数据能力复用平台

大数据的工具和技术栈已经相对成熟,大公司在实战经验中围绕工具与数据的生产链条、数据的管理和应用等逐渐形成了能力集合,并通过这一概念来统一数据资产的视图和标准,提供通用数据的加工、管理和分析能力。数据能力集成的趋势打破了原有企业内的复杂数据结构,使数据和业务更贴近,并能更快地使用数据驱动决策。

云数融合:云化趋势降低技术使用门槛

大数据基础设施向云上迁移是一个重要的趋势。向云化解决方案演进的最大优点是用户不用再操心如何维护底层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低了大数据技术的学习成本和使用门槛。

数智融合:数据与智能多方位深度整合

大数据与人工智能的融合则成为大数据领域当前最受关注的趋势之一。这种融合主要体现在大数据平台的智能化与数据治理的智能化。

产业深化

前几年,大数据的应用还主要在互联网、营销、广告领域。而随着大数据工具的门槛降低以及企业数据意识的不断提升,越来越多的行业开始尝到大数据带来的“甜头”。这几年,无论是从新增企业数量、融资规模还是应用热度来说,与大数据结合紧密的行业逐步向工业、政务、电信、交通、金融、医疗、教育等领域广泛渗透,应用逐渐向生产、物流、供应链等核心业务延伸,涌现了一批大数据典型应用,企业应用大数据的能力逐渐增强。电力、铁路、石化等实体经济领域龙头企业不断完善自身大数据平台建设,持续加强数据治理,构建起以数据为核心驱动力的创新能力,行业应用“脱虚向实”趋势明显,大数据与实体经济深度融合不断加深。

从产品角度来看,目前大数据技术产品主要包括大数据基础类技术产品(承担数据存储和基本处理功能,包括分布式批处理平台、分布式流处理平台、分布式数据库、数据集成工具等)、分析类技术产品(承担对于数据的分析挖掘功能,包括数据挖掘工具、BI 工具、可视化工具等)、管理类技术产品(承担数据在集成、加工、流转过程中的管理功能,包括数据管理平台、数据流通平台等)等。我国在这些方面都取得了一定的进展,其中:大数据基础类技术产品市场成熟度相对较高;大数据分析类技术产品发展迅速,个性化与实用性趋势明显;大数据管理类技术产品还处于市场形成的初期。

数据资产

“数据资产”这一概念是由信息资源和数据资源的概念逐渐演变而来的。在中国共产党十九届四中全会上,中央首次公开提出“健全劳动、资本、土地、知识、技术、管理和数据等生产要素按贡献参与分配的机制。”这是中央首次在公开场合提出数据可作为生产要素按贡献参与分配。

在数据资产化背景下,数据资产管理是在数据管理基础上的进一步发展,可以视作数据管理的“升级版”。

数据资产管理工具是数据资产管理工作落地的重要手段。由于大数据技术栈中开源软件的缺失,数据资产管理的技术发展没有可参考的模板,工具开发者多从数据资产管理实践与项目中设计工具架构,各企业数据资产管理需求的差异化使得数据资产管理工具的形态各异。因此,数据资产管理工具市场呈现百花齐放的状态。

目前,数据资产化还面临着诸多挑战:

数据确权困难 数据估值困难 数据交易市场尚未成熟

数据合规

与全球不断收紧的数据合规政策相类似,我国在数据法律监管方面也日趋严格规范。当前我国大数据方面的立法呈现出以个人信息保护为核心,包含基本法律、司法解释、部门规章、行政法规等综合框架。2019 年以来,数据安全方面的立法进程明显加快,中央网信办相继发布了针对四项关于数据安全的管理办法征求意见稿。

大数据合规要求的落地,要靠数据安全技术的助力。当前我国数据安全法律法规重点关注个人信息的保护,大数据行业整体合规也必然将以此作为核心。目前的数据安全技术中有为数不少的技术手段瞄准了敏感数据在处理使用中的防护,例如数据脱敏、安全多方计算、联邦学习等等。

大数据发展展望

技术方面,我们仍然处在“数据大爆发”的初期,随着 5G、工业互联网的深入发展,将带来更大的“数据洪流”,这就为大数据的存储、分析、管理带来更大的挑战,牵引大数据技术再上新的台阶。硬件与软件的融合、数据与智能的融合将带动大数据技术向异构多模、超大容量、超低时延等方向拓展。

应用方面,大数据行业应用正在从消费端向生产端延伸,从感知型应用向预测型、决策型应用发展。当前,互联网行业已经全面进入“DT 时代”。未来几年,随着各地政务大数据平台和大型企业数据中台的建成,将促进政务、民生与实体经济领域的大数据应用再上新的台阶。

治理方面,随着国家数据安全法律制度的不断完善,各行业的数据治理也将深入推进。数据的采集、使用、共享等环节的乱象得到遏制,数据的安全管理成为各行各业自觉遵守的底线,数据流通与应用的合规性将大幅提升,健康、可持续的大数据发展环境逐步形成。

责任编辑:周星如