李礼辉:金融业数据安全治理的新格局
以数据为核心的数字技术环境
 
信息技术最新的迭代升级,呈现出以数据为核心的基本特征。几何级速率递增的数据和扇面扩展的数据应用,构建了一个新的技术环境。
 
一是超级数据圈。人们通常把包含创建、采集、复制和挖掘的数据集合称为数据圈,数据量是数据圈的外延性指标。据国际数据公司IDC预测,2025年全球数据量将高达175ZB(1ZB=10万亿亿字节);在全球的数据圈中,中国增长速度最快,年平均增速比全球高3个百分点;数据量最大,到2025年将高达48.6ZB,占全球的27.8%。
 
二是人工智能深度学习。深度学习模拟人脑机制解释数据,学习特征,创建智慧模型。大容量高密度的数据是深度学习的样本。例如,百度的深度学习平台PaddlePaddle“百度飞桨”集推理框架、基础模型库、开发工具为一体,支持稠密参数和稀疏参数不同场景的超大规模深度学习并行训练,支持千亿规模参数、数百个节点的高效并行训练,通过AI赋能支持产业升级,其市场份额目前已与Google、Facebook鼎立全球前列。
 
三是底层软件开源。开源是一种分布式协作模式。开源协作的规则包括自由再发布、源代码公开、允许派生作品、维护作者源代码完整性、禁止任何歧视、许可证不能约束其他软件、许可证独立于技术等。近几年,人工智能、云计算等新兴技术领域的开源项目受到高度关注,2019年的GitHub代码仓库中,Microsoft的源码编辑器VSCode、机器学习文档AzureDocs是贡献者最多的开源项目,其次是Google的机器学习平台TensorFlow、容器编辑平台Kubernetes和Facebook的移动应用开发框架ReactNative。2019年以来,百度飞桨是进步最快的深度学习开源框架。在2021年5月发布的v2.1版本中,新增了自定义外部算子、高精度语义分割、图像语义分割、多目标追踪算法等功能;PaddleHelix从静态图升级到动态图,可以用于分子生成;PaddleQuantum新增量子数据编码模块等功能,支持更高级的量子计算。
 
四是分布式数据部署。海量数据环境促进了数据部署架构的迭代创新。大中心+应用端+数据云的分布式存储架构,成为新的数据部署架构,数据不再全部集中在大型数据中心的数据库中。为了节省数据传输的数量,提高数据挖掘的效率,必须改变数据集中存储的布局,数据同时部署在靠近应用端、执行边缘计算的小型数据库中;为了节省数据存储的成本,提高数据存储的集约化水平,必须建立共享的数据存储设施,数据同时部署在数据云的数据库中。
 

 
数字化金融的特殊性
 
金融业务具有4大特点。一是高并发,例如,支付结算、外汇交易等业务的并发交易峰值每秒高达万笔之上;二是多平台,金融服务通常涉及资产方、负债方、委托方、管理方、审计方、中介方等不同角色,必须达成多方实时共享共管;三是高敏感,金融数据涉及客户的个人隐私和商业秘密,特定产业、特定企业的金融数据有的涉及国家机密,具有政治敏感性;四是严监管,金融的业务性质是用别人的钱做自己的生意,金融的行业特征是无时不在无处不在的风险,金融的社会属性是经济枢纽、百姓钱包。金融监管历来严格,保护客户权益、防范系统性金融风险是大多数国家金融监管制度的底线。
 
金融科技创新广泛应用数字化技术,数字化的金融架构对金融数据安全构成新的挑战。
 
其一,数据治理硬边界交叉。金融机构与工商企业、公益机构和国家机关共建服务场景以触达客户、获取数据资源,金融机构与电商、电信运营商等占有数据资源优势的企业合作,科技平台直接或间接涉猎金融业务,大量金融数据部署在数据云平台,这些都在扩大数据治理硬边界交叉的范围和面积,增加了数据安全保护的难度。
 
其二,数据安全软技术滞后。传统的信息技术架构是大中心化、局域封闭式的,安全性和稳定性较佳,但扩展性能和更新性能较弱。近些年,金融机构开始将集中式架构转变为集中式+分布式+数据云的架构。在分布式、端对端的技术架构上,数据和数字资产安全必须更多依赖密码算法、智能合约等“软技术”。我们发现,一方面,我国的金融企业还在使用外来的密码算法;另一方面,分布式架构比集中式架构更容易发生数据安全失守的问题,密码算法和智能合约逻辑上的漏洞和缺陷,经常成为黑客攻击的突破口。例如,2021年8月10日,跨链去中心化金融平台PolyNetwork遭受黑客洗劫,黑客只花了34分钟,就从以太坊、币安智能链、Polygon等3个网络成功转移26906个USDC、26629个ETH等加密数字资产到黑客地址上,市值约6.1亿美元。据技术专家分析,此次攻击的主要原因是智能合约的权限管理逻辑存在缺陷,黑客利用该技术漏洞调用合约中的相应函数,将用户地址更改为黑客地址,继而盗取数字资产。
 
其三,数字链接零距离。在数字链接的经济社会中,人与人之间、人与物之间、物与物之间的空间、时间距离趋近于零,这将提供更加广泛的便捷性,也将带来更加直接的危险性。物联网任何一个应用系统、任何一个节点潜在的缺陷或疏漏,既可能直接导致事故,也可能成为黑客恶意攻击的缺口;由于物联网的高速率和广覆盖,既可能出现单一的金融事故,也可能出现系统性的金融风险。
 
金融业的数据安全治理
 
金融业的数据安全治理涉及方方面面,重要的是,在维护国家金融安全的大目标下,应用安全的数据技术,建设安全的数据基础设施,建设有效的数据安全制度,来保障数据采集安全、数据存储安全、数据处理安全、数据应用安全,同时保护数据隐私,保护以数据记载与表达的金钱财富。
 
地缘政治中的技术立国
 
我国是数据资源大国和数字化市场大国,但却是软件弱国。从已经普及的电脑、手机,到正在深度研发的人工智能、区块链,其操作系统、源代码和算法程序等底层核心技术的知识产权,大多是由美国等西方国家控制的。德国贝塔斯曼基金会2020年的一项研究发现,在58项尖端技术里,美国在其中的50项拥有最多的专利。在核心硬件领域,我国大型银行的数据中心多年来一直依赖IBM的大型主机,同时大量使用非自主品牌的数据库和存储设备。
 
在技术创新引发的重构进程中,我们还要面对全球产业链整合带来的结构性转型压力,面对地缘政治带来的破坏性外部冲击。核心技术依赖是现实而又迫切的风险。
 
2020年10月,美国发布《关键与新兴技术国家战略》,20项清单包括高端计算、数据存储和分布式技术等,明确“美国必须发展这些科技,保护这些科技,不能提供这些技术给竞争对手。”
 
数字技术平等是数字经济、数字金融平等竞争的基石。即使是大国,经济上的闭环运行一般只会降低经济资源配置的效率,增加经济运行的总体成本,并影响国民消费的品质。但如果在关键技术领域受制于人,一旦遭遇大面积封锁,就可能造成经济失速。因此,在核心数字技术领域,我国只有补齐短板,才有可能与西方国家真正建立平等互利的关系。
 
在核心数字技术上,我们借不来,买不到,等不得,唯一的路径是自力更生,奋发图强,寻求突破。
 
需要提出的是,实现核心技术的自主自立是一个过程,不可能一蹴而就,在较长的一个时期内,我们不可能实现全方位的国产化替代。例如,大型金融机构数据中心的大型主机及其配套的系统软件,在全球市场上目前都没有替代品,而依托小型机的分布式系统,在核心功能上目前也无法取代大型主机。因此,在核心技术创新中,我们仍需借力,但应高度重视并主动防范潜在的风险。
 
实践已经证明,在技术创新进程中,民营队与国家队完全可以并驾齐驱。要更多鼓励民营队,重要的是为民营企业创造更加公平、更加宽松的营商环境。要真正激励国家队,重要的是促进国有企业建立符合市场经济和科技规律的激励机制、决策机制和问责机制。
 

 
万物互联中的数据保护
 
正在到来的数字世界不再只是大中心的计算机系统和低速率的互联网络,而是中心化与分布式多元复合的架构,是超规模超高速的数字链接。
 
万物互联意味着数据的集合,但集合并不能自动解决个人隐私保护和数据安全问题。数据集合当然可以成为数据占有者的资源优势和竞争优势,但可能妨碍公共数据发挥应有的社会价值,也有可能因商业利益驱动和管理疏漏,侵犯个人隐私,甚至危及国家数据安全。
 
万物互联有利于创建更加便捷的服务,但对网络安全、数据安全构成严峻的挑战。
 
数据资源是个人的财富、集体的财富。数字经济时代更需要切实保护数据隐私。我个人认为,我国立法和执法的焦点在于:如何协调数字经济社会的宏观稳定与微观动力,如何划分数据资源固有的商业价值与数据挖掘应用产生的商业价值,如何平衡数据所有者的基本权利与数据占有者的商业利益。
 
中国的国情与西方国家不同,我们不宜照搬西方法律,但应该强调数据所有者对隐私数据的基本权利。例如,规定企业收集及处理数据必须得到数据所有者明确的同意,规定企业不得超越约定范围收集、处理和使用数据,同时给予数据所有者要求数据占有者删除涉及本人隐私数据的权利。
 
数据资源是国家的财富,数据安全是数据开发利用和数据产业发展的保障。我们需要更新安全定义、安全技术、安全制度,构建一个全新的数字安全体系,切实保护数据资源的安全。例如,金融科技平台必须构建用户相互信任、信息真实对称的技术环境,要求保证数据可靠传输,保护个人隐私;要求采用信息真实性交互验证技术,建立身份认证系统,对人或物进行特征识别、时空定位和身份认证,进行用户授权验证和信息数据验真,确认端对端的控制权和指挥权。
 
国家支持数据开发利用,支持数据安全技术推广和商业创新。可以通过技术创新实现数据资源共享和安全应用。例如,中国互联网金融协会牵头研发金融业数据要素融合应用系统。这个系统基于数据安全协议,集成运用多方计算、联邦学习、数据脱敏、差分隐私、可信计算等技术,可以利用多个参与方的数据,将散落在不同局域的数据联合起来转换成有价值的知识,同时可以保护数据隐私,实现数据可用不可见,在实现数据共享的同时保护数据隐私,在提升数据资源价值的同时保护数据安全。
 
应该建立数据安全审查制度,建立明确的数据分类分级保护制度,包括数据分类分级具体标准和数据处理机构分级管理规范。对数据云服务应加强技术可靠性和数据安全性审核,评定安全等级,根据安全等级制定数据收集、处理的准入范围。应有必要严格管制重要数据出国。某些国际资本市场对上市公司的信息透明度设定了苛刻的要求,应该深入分析上市地区关于监管审查、审计的具体规定与流程,一些企业特别是关键信息基础设施的运营商拥有一定规模的隐私数据和敏感数据,如果确实存在国家核心数据泄露的风险,就应禁止这类企业到这些资本市场上市。
 
产业融合中的穿透式监管
 
......
 
本文完整版刊登于《北大金融评论》第9期