联邦学习构建金融机构AI基石 萨摩耶数科力促数据增值“有道”
2020年,我国数字经济规模达到39.2万亿元,占GDP比重为38.6%,目前位居于世界第二,其增速是GDP的三倍以上。
这一组数据来自于中国信息研究院发布的《中国数字经济发展白皮书(2021)》。按前述所言,可毫不夸张地说,数字经济时代已然到来,成经济增长的主要动力。
不过,数字经济要想行稳致远,核心前提是维护好安全这一“基石”。毕竟虚拟数字世界不断扩张之时,现实生活中存在着泄露个人隐私的风险。
且于9月1月实施的《数据安全法》中明确,“鼓励数据要依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展。”
而在科技赋能金融数字化转型过程中,金融机构如何在保护个人隐私的前提下推动数据间协作?这成为摆在行业面前的一道坎。
值得一提的是,对于解决“数据孤岛”的难题,在行业普遍认知中,联邦学习技术成为有力的“武器”。
挖掘“跨域”数据价值
近些年,越来越多的企业意识到数据分析的重要性。在大数据“喂养”下,人工智能得以快速发展。换言之,深度学习的代表——人工智能之所以应用到各行各业,离不开数据支持。
不过,企业若不想囿于私域数据,被限制在“一隅”,且又要满足数据合规问题的话,需要采用联邦学习技术,方能挖掘“跨域”数据价值。
而所谓的“联邦学习”是一种分布式机器学习技术,在不交换数据样本的情况下,在多个分散的边缘设备和服务器上训练算法,以达到在数据“可用不可见”的基础上进行安全联合建模。
简单来说,联邦学习具有众筹和协作之意,搭建的系统具有聚合功能,其在推动数据融合,解决“数据孤岛”难题上,释放更多数据动能。
于企业而言,除私域数据之外,其还可将多维度的外域数据作为参考,并以此为基础做出更为准确的决策。
且目前,联邦学习已在医疗、金融、物联网等领域有所应用。
其中,医疗行业中,国内三甲医院保存的医疗数据量非常可观,可涉及隐私问题,科技公司想要直接采集多家医院的数据用于训练并不现实。而联邦学习解决人们最为关心的隐私安全问题,医疗机构也才能放心将医疗数据用于AI训练,突破了隐私的围城。
另外,联邦学习已在金融行业中一些关键领域上取得了进展,联合反洗钱建模、联合信贷风控建模、联合权益定价建模、联合客户价值建模等。
提升金融机构运营、风控效率
以萨摩耶数科为例,作为与众多流量方、金融机构有着业务往来的公司,其充分利用自身与合作方优势,可对获客、运营、风控等效果提升有显著帮助。
基于业界的开源联邦学习框架Fate,萨摩耶数科构建起了联邦学习平台。该平台上各个参与方信息保留在本地,不泄露隐私也不违反法规。且在联邦学习的体系下,各个参与者的身份和地位相同,建模效果与将整个数据集中放在一起的建模效果相同。
此外,该平台将联邦学习集成到了萨摩耶数科AI平台,可以更容易地实现联邦模型的训练、上线以及模型管理等功能,使联邦学习更简单易用。两者结合后还获得了可视化联邦拖拽建模、模型管理及模型监控。
具体来讲,萨摩耶数科AI平台统一了从特征工程、算法建模、模型训练、模型评估、模型发布等全流程,实现界面配置,便于模型的统一管理和维护,节省模型从训练到发布的上线周期。同时,参考了业界主流AI平台设计思想,用组件化开发实现各个业务功能流程,做到自定义可配置可扩展,同时也用Kubernetes实现容器化弹性快速部署。
且萨摩耶数科的AI平台还具有私有化、开放性、组件化的算法库、代码和组件相互转换、进行自定义预处理、灵活定制不同模型的监控指标、支持Spark、TensorFlow等分布式框架、自动机器学习功能(Auto ML)、跨平台(Windows、Linux)使用、线上线下统一特征管理等亮点。
值得一提的是,开源版联邦学习Fate提供了丰富的纵向与横向开源算法及优秀的调度Fate_Flow,可在易用性上给用户造成很大的影响,即使用者在使用开源版几个月后仍不能熟悉和快速地使用Fate进行联合建模。
而联邦学习算法集成到萨摩耶数科AI平台主要从两个方面入手:一是改进Fate易用性,从上传数据、训练模型到在线预测上线模型三大主要阶段,通过简单前端操作一键执行,并且对训练模型这个主要的模块进行前端拖拽建模,在线预测模块进行一键发布、停止、跑批等功能,并和萨摩耶数科AI平台保持一致。
联邦学习集成到萨摩耶数科AI平台的第二阶段,将开发自动建模平台AUTOMAN算法联邦化,目前Fate联邦学习的算法是一些常用算法组件,相比AUTOMAN在风控建模方面的算法还是相对较少,后面将部分AUTOMAN算法进行联邦化,并集成到AI平台。
据了解,萨摩耶数科旗下的AUTOMAN自动建模平台是将人工智能应用在模型设计领域,使模型开发周期减少60%-80%,最短可在1周内完成千万级样本建模任务,极大地缩短原始样本与经营决策的距离,实现整体降本增效。
未来,萨摩耶数科联邦学习平台将实现AUTOMAN自动建模平台的联邦化,以此提供更加丰富的模型。同时,结合使用联邦学习商业版FDN技术支持软件,提供更多模型维度,使得模型准确度大幅提升。