大数据十大“关键词”

2021年,互联网大数据行业经历了一场耐力大考验。


这一年,政策监管席卷了诸多行业,互联网行业身处风暴眼。从反垄断超200亿元巨额罚款,到平台之间“拆墙”势在必行,数据合规已经上升至国家安全的战略高度,一项又一项新政,让互联网行业告别野蛮扩张。


内外环境的变化都昭示着,消费互联网的时代渐行渐远,互联网行业正处在转型的重大拐点。


在2022之际,大数据有十大关键词。


关键词1:数据安全


2021年6月,滴滴在美股递交招股书,紧接着7月,“滴滴出行”因APP存在严重违法违规收集使用个人信息问题,被依据《中华人民共和国网络安全法》相关规定下架。在滴滴之后,运满满、货车帮、BOSS直聘也被启动网络安全审查,2021年数据安全审查的大幕拉开。


滴滴事件背后,是互联网产品的相关数据和技术应用不但涉及个人权利、隐私,还关系着公共安全乃至国家安全的议题。2021年,被称为数据安全元年。继《数据安全法》、《个人信息保护法》施行之后,有关部门还发布了《数据出境安全评估办法(征求意见稿)》。


关键词2:DataOps从概念到实践


DataOps(数据操作)是一门新兴学科,将DevOps团队与数据工程师和数据科学家角色结合在一起,提供一些工具、流程和组织结构服务于以数据为中心的企业。DataOps终结了数据团队不断尝试将不良原始数据变成有用的数据等繁复的工作。相反,他们可以专注于重要的事情,即提供可行动洞见。DataOps能确保输入原始数据的可用性,保证结果的准确性,注重人员价值及共同合作的价值,使数据团队始终处于公司战略目标的中心。毕竟,他们再也不需要花费几个月的时间出成果,而且与DevOps团队一样高效。


关键词3:数据要素市场化


中央正式提出“加快培育数据要素市场”已满一年,2021年产业各界在法规、机制、技术等方面开始了诸多探索。一是数据相关立法正在完善,《数据安全法》正式颁布,《个人信息保护法(草案)》即将出台,相关法律的陆续完善为数据要素市场化提供了保障基础,同时深圳、上海、安徽等地方政府正在积极制定地方数据条例。二是数据交易开始探索新模式,山东、北京、北部湾等新一批成立的大数据交易所纷纷开始探索数据登记、数据信托、数据运营管理、数据资产证券化等新型业务模式,推进打造规范化、一体化的数据流通市场生态。三是企业数据资产化掀起实践浪潮,南方电网、光大银行、浦发银行等领先企业开始进行更深层的数据资产化探索。


关键词4:隐私计算迎来市场发展爆发期


2021年隐私计算备受关注,隐私计算即将迎来市场发展爆发期。国家发展改革委、中央网信办、工业和信息化部、国家能源局、人民银行等部门发文鼓励多方安全计算、联邦学习等隐私计算技术发展和应用,政策环境进一步优化。当前,隐私计算企业和产品数量迅速增多,算法不断优化、相关技术加快融合、产品成熟度和可用性进一步提升。与此同时,市场已经对隐私计算应用达成基本共识,隐私计算相关招投标项目和应用案例不断丰富,隐私计算正式步入落地应用阶段。

关键词5:大数据服务体系成为新的竞争点


规划咨询、部署实施、运维运营等软性工作共同构成大数据服务体系,解决了产品到应用的“最后一公里”问题。然而,由于大数据技术的复杂性和与业务结合的紧密性,大数据项目无法做到“交钥匙”工程,需要优质且持续的服务。中国信通院最新产品测试结果表明,虽然当前国内大数据产品功能项通过率已经达到了95.69%,但服务能力差距依然巨大,根据中国信通院2020年发布的服务能力评估结果,企业平均分值只有71分(满分100分),各项细节能力均存在不足。大数据市场发展的主要矛盾已经从产品化不足转移到了服务能力不够,大数据服务能力将成为供给侧各企业新的竞争点。


关键词6:数据技术产品与云计算深度融合


随着云原生技术的成熟以及企业云上应用的丰富,大数据技术产品与云计算深度融合,从云化走向云原生化,使其具备按需付费、低成本、扩展性强、存算分离、一键部署等特性。2021年,亚马逊、阿里、腾讯、华为分别推出了与云融合的各类大数据技术产品,包括计算分析类、存储类、数据库类等。


关键词7:实时计算逐渐普适化


大数据的3V特征中,其中一个就是时效性。随着分布式流处理平台的不断成熟,各行业领域实时计算分析的需求愈加强烈。在供给端方面,流计算产品能力快速迭代,流计算开源社区持续火热,Flink是最活跃的Apache 开源项目之一。此外,实时计算公司广受资本青睐,实时计算商业化公司Confluent即将IPO,估值超80亿美元。在应用方面,实时流计算技术已经深入互联网企业各类业务中,涌现出大量实践案例,应用场景包括实时数仓、实时AI、流批一体等,并逐渐向金融、电信、工业等行业渗透。


关键词8:数据湖进入产品化阶段


数据湖能够实现原始数据无转换直接存储,极大提高数据应用效率。目前开源界形成了ICEBERG、HUDI、DELTALAKE三大开源技术流派,共性特点是支持流批处理、数据更新、可扩展源数据、多种存储引擎、多种计算引擎等能力,补齐大数据技术栈之前的短板。经过多年发展,国内企业数据湖产品在2021年逐渐落地,华为云、腾讯云均在今年发布了数据湖产品,阿里云在今年发布了湖仓一体2.0产品,数据湖产品化进展加速。


关键词9:数字孪生在重点行业关注度高


智慧城市、工业互联网将成为“十四五”时期的重头戏,而数字孪生是实现智慧城市、工业互联网最基础的技术手段之一。数字孪生是一系列技术的组合,具备五大关键技术能力:物理与数字世界的互操作性、数据模型的可扩展性、数字表征的实时性、多维度的保真性、数字影响物理的闭环性。当前,数字孪生技术进展迅猛,成为研究和标准化工作的重点。Gartner、IDC等研究机构开始深挖数字孪生的研究价值,ISO/IEC 开启数字孪生相关标准制定工作,中国信通院成立数字孪生技术应用工作委员会,开展数字孪生技术在智慧城市场景与应用的探索。同时阿里云、华为、AWS、微软等各头部企业也开始布局,发布数字孪生行业解决方案。


关键词10:硬件变革推动数据产品更新重构


数据技术产品的设计与研发与底层硬件的架构和能力息息相关。目前,底层硬件正在发生变革,导致数据技术产品也将随之进行重构。一方面,数据技术产品将直接利用硬件实现数据安全和网络解析等功能。另一方面,未来数据技术产品将面向ARM架构实现优化。未来,基于ARM的服务器规模将持续扩大,各类数据技术产品为提高能力将面向ARM实现优化。