巴曙松:重视数据隐私和安全倒逼技术创新和金融创新
  3月17日晚,“北大汇丰金融前沿讲堂”系列第90期于线上线下同步举办,微众银行首席人工智能官杨强教授带来题为“用户隐私、数据孤岛和联邦学习”的精彩讲座,北京大学汇丰金融研究院执行院长、中国银行业协会首席经济学家巴曙松教授在讲座后发表了精彩点评。本文根据巴曙松教授点评实录整理。
 
点评 / 巴曙松教授(北京大学汇丰金融研究院执行院长、中国银行业协会首席经济学家)
 
以下为点评全文实录
 
  非常感谢杨强教授的精彩讲座。疫情的冲击,促使经济运行的不同领域加速进入信息时代,而人们常说,数据是信息时代的石油,随着人工智能技术和数据处理能力的提升、机构和个人海量数据的不断产生,理论上大数据与人工智能技术的完美结合,能够充分挖掘和释放数据的价值。但由于数据中包含大量个人隐私、商业机密等,数据隐私安全的问题也广泛受到世界各国重视,比如欧盟出台的《通用数据保护条例》(GDPR)、美国《美国加州消费者隐私法》(CCPA)、新加坡修订《个人数据保护法案》、中国《信息安全技术网络安全等级保护基本要求》等。2020年11月,亚马逊因为“滥用卖家数据谋利”,欧盟判定其违反反垄断法。2020年12月,欧盟公布了《数字服务法》(DigitalServices Act)和《数字市场法》(DigitalMarkets Act),旨在规范互联网平台的数据管理。在数字经济时代,重视数据隐私和安全已经成为一种世界性的趋势,这对以大数据为基础的互联网商业模式提出了更高的要求与挑战,同时也为技术创新与金融创新指明了新的方向。而杨强教授在这个领域做出了突破性创新。
 
  2020年4月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,《意见》特别指出,加强数据资源整合和安全保护。“十四五”规划对建设“数字中国”提出了新的要求,制定了主要目标:2025年数字经济核心产业增加值占GDP比重要由2020年的7.8%提升至10%。从数据服务市场来看,“十四五”规划“鼓励企业开放搜索、电商、社交等数据,发展第三方大数据服务产业”;政府数据服务领域“鼓励开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用”。对于数据治理,“十四五”规划提出“加强涉及国家利益、商业秘密、个人隐私的数据保护,加快推进数据安全、个人信息保护等领域基础性立法,强化数据资源全生命周期安全保护”。“十四五”规划对从开放数据竞争到加强数据治理提出了新的要求,国内按照传统模式运行的互联网公司可能也将面临新的挑战。
 
  联邦学习的概念最早于2016年由谷歌提出,指多个客户在一个或多个中央服务器协作下协同进行去中心化机器学习的设置。在去中心化机器学习的过程中,联邦学习能够保证每个客户的隐私数据不出本地,从而降低了传统中心化机器学习带来的隐私泄露风险和因数据泄露带来的相应成本,相关研究成果组成了“联邦学习”的整体解决方案。
 
  在金融行业应用场景中,普遍存在“主观上不愿意,风险合规上不敢,技术上不能共享数据”的问题,导致海量数据散落在众多机构和信息系统中,形成一个个“数据孤岛”。用户隐私、数据孤岛、数据商业化之间的矛盾一直与互联网的发展相随相伴。联邦学习正好从技术的角度解决了这一困境。相比传统的数据授权和数据传输模式,联邦学习既能满足隐私保护的要求,又能够实现商业诉求。联邦学习正是在改变现有机制和流程成本很高的情况下,通过技术手段让各参与方自有数据不出本地,通过加密机制下的交换方式,建立起高质量的模型。相比各数据主体拥有私有数据“各自为政”的传统方式,“联邦”包含着将多方以平等的地位团结起来,有“君子和而不同”的意味。
 
  同时,部分金融应用,如反洗钱异常交易识别、保险反欺诈等,还面临数据特征少,样本标签稀缺,数据分布不均衡等挑战。针对小数据环境下机器学习应用,杨强教授带领的微众银行AI团队提出了“联邦迁移学习”,对更加普适性的应用场景进行广泛的研究和实践。
 
  在数据安全和隐私保护的诉求下,杨强教授团队致力于联邦学习在技术领域为AI在金融行业树立行业标准,这为整个行业的规范和高效运作提供了一种可选的技术路径。杨强教授领导下的微众银行AI团队同时也是联邦学习标准的主要推动者,不仅领导了国内标准的制定和完善,同时更在国际标准及技术联盟的建设过程中加强了“中国力量”的贡献和影响。
 
  联邦学习在金融行业有非常广泛的应用场景。根据具体应用场景下数据的组织和使用形式不同,联邦学习应用分为横向联邦学习和纵向联邦学习。
 
  横向联邦学习的应用是同类型机构之间的联邦学习,例如两家银行之间进行联邦学习。横向联邦学习的典型应用场景包括智能终端、社会性组织、物联网。首先看智能终端场景,在实际使用智能终端的环境中,用户可能不愿意为了保护个人隐私或节省手机有限的带宽/电池电量而共享数据。联邦学习有可能在智能手机上实现预测功能,而不会降低用户体验或泄露私人信息,统计模型可以为诸如下一个单词预测、人脸检测和语音识别等应用提供动力。
 
  另一个主要应用场景是社会性组织或机构。在联邦学习的背景下,社会性组织或机构也可以被视为“设备”。例如,医院是包含大量患者数据的组织,用于预测医疗保健。然而,医院在严格的隐私措施下运营,可能会面临法律、行政或道德约束,这些约束要求数据保持本地。联邦学习对于这些应用来说是一个很有前途的解决方案,因为它可以减少网络上的压力,并支持各种设备/组织之间的私有学习。
 
  第三个主要应用场景是物联网。现代物联网如可穿戴设备、自主车辆或智慧家庭,可能包含许多传感器,使他们能够收集、反应和适应实时输入的数据。然而,由于数据的私密性和每个设备的有限连接,在这些场景中构建聚合模型可能很困难。联邦学习方法有助于训练模型,使其能够有效地适应这些系统中的变化,同时保护用户隐私。
 
  纵向联邦学习是指不同类型机构之间的联邦学习。金融风控、互联网营销是金融机构与互联网公司之间的联邦学习的典型应用领域。从金融风控领域看,在“数据不出域”的前提下,互联网与某银行建设线上信贷业务系统,联合构建反欺诈模型、画像模型,模型效果显著提升。在丰富银行的大数据信贷风控能力的同时,实现优质客群优质定价,既满足了银行实际管理需求,资金又得到更有效的配置使用。第二个应用领域是营销风控。某互联网公司通过“联邦学习”为某航空公司打造出全票务智能营销风控中台。在用户信息不出域的条件下,实现模型差异梯度交换,完成黑产欺诈模型联合建模。建模后的票务欺诈模型有较好的欺诈识别效果,在确保双方数据隐私前提下有效防范航空公司的互联网营销欺诈风险。
 
  从技术融合角度,联邦学习是一种跨学科的解决方案,集合了机器学习、统计学、加密学、分布式、系统、安全等学科的技术。在利用人工智能进一步挖掘大数据潜在价值的大趋势下,“联邦学习”已经成为当下以及未来一段时间内,推动人工智能和机器学习商业落地的关键能力之一。联邦学习与5G、计算机视觉的结合,为无人驾驶、智慧制造、智慧出行等领域提供支持。微众银行已成功将联邦学习应用在智能投研(资管行业),同时也有保险、医疗等行业的成功应用。联邦学习在不同行业的应用,也更符合未来大数据、多企业、跨行业的应用需求,这也从一个特定的角度表明,技术的创新与金融的创新息息相关,相互推动,共同成为推动金融发展的重要动力,同时也在改变着金融行业的发展格局,所以值得深入学习和思考,再一次感谢杨强教授的精彩演讲,谢谢各位!