基于隐私计算技术的公共数据开放平台
所属单位:深圳市洞见智慧科技有限公司
参与奖项:最佳金融数据与隐私保护奖
评委评分:
热度 (转发微信朋友圈或群可以帮助增加热度)
微信扫码分享此评选

本项目是国内第一个省级隐私计算平台项目,具有行业的标杆意义。建设的核心目标是提升公共数据存储、计算、应用、通用支撑和服务管理能力,从而为某省公共数据的开放、应用奠定扎实的基础,加强数据资源整合和安全保护,落实数据要素市场培育、加速释放数据要素红利,充分发挥数据要素的价值,推动培育数字经济新产业、新业态和新模式,发挥公共数据资源的经济价值和社会效益。

方案背景

根据《某省数字政府建设实施方案(2019-2022年)》要求,要依托省一体化大数据平台,提升该省政务服务、行业监管、辅助决策能力,推进保障流程再造、优化营商环境工作深入开展,提供稳定、可靠、安全、高效的数据支撑,实现全省大数据计算、存储、服务支撑等基础设施资源的集约共享。

现省一体化大数据平台统筹利用已建设的省政务信息资源共享交换平台、省基础信息资源库系统、省公共数据开放平台基本实现了全省政务信息资源跨部门、跨地域的共享开放,但在数据交换带宽、数据服务的并发能力、公共数据开放应用服务能力、数据安全体系等方面依旧存在不足,为实现省一体化大数据平台统一数据汇聚、数据治理和数据应用服务,充分释放数据价值,需要进一步提升省一体化大数据平台的支撑能力。

本项目需要建设高效数据汇聚及应用服务能力提升、公共数据服务开放平台、数据安全体系建设等三大系统,优化完善省一体化大数据平台的数据交换、存储、服务、安全等能力,提供稳定、可靠、安全、高效的数据支撑,进一步推进全省大数据计算、存储、服务支撑等基础设施资源的集约共享。

行业痛点

近几年来,随着电子政务建设的不断发展,政府部门在履行行政职能、管理社会公共事务的过程中,已积累了大量与公众的生产、生活息息相关的数据,成为了社会上数据量最大的拥有者。政府向公众开放其所拥有的数据,特别是公共服务类数据的开放,不仅有利于全社会更广泛、更高效地利用数据创造经济社会价值,还能帮助政府提高自身透明度,提升执政治理能力和效率。因此,国家先后出台《促进大数据发展行动纲要》、《关于推进公共信息资源开放的若干意见》、《政务信息系统整合共享实施方案》等指导文件,要求政府数据开放、扩大信息公开。但另一方面,海量数据在为人们提供更多知识与信息的同时,出现大量个人隐私被泄露滥用严重问题,为保障个人隐私信息安全,政府相继出台了一系列法律法规规范,如《网络安全法》、《数据安全法》、《个人信息保护法(草案)》,严厉打击个人隐私数据非法泄露滥用问题,数据流通合规要求不断提高。

政府行业迫切需要使用新兴技术解决目前遇到的数据开放与隐私保护“两难”问题,具体体现在:

(1)如何实现数据的“可用不可见”?

(2)如何在协作中保护自有数据隐私与安全?

(3)如何更广泛、更高效地利用数据服务社会?

(4)如何扩大政府部门间数据开放力度?

方案目标

本项目是国内第一个省级隐私计算平台项目,具有行业的标杆意义。建设的核心目标是提升公共数据存储、计算、应用、通用支撑和服务管理能力,从而为某省公共数据的开放、应用奠定扎实的基础,加强数据资源整合和安全保护,落实数据要素市场培育、加速释放数据要素红利,充分发挥数据要素的价值,推动培育数字经济新产业、新业态和新模式,发挥公共数据资源的经济价值和社会效益。

方案特点

针对政府行业数据开放和流通困境,国家在政策层面和技术层面均进行了提前布局与政策指引,指出了数据安全和隐私泄露的风险是制约组织间数据流通的一大障碍,给出了当前突破数据流通瓶颈的技术路径。2016年12月,工信部《大数据产业发展规划(2016-2020)》提出要“支持企业加强多方安全计算等数据流通的关键技术攻关和测试验证”。2021年5月24日,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出“试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境,提高数据流通效率”。多方安全计算、联邦学习、可信执行环境等隐私计算技术为破解数据保护与利用之间的矛盾提供了技术上的可能性、在数据流通过程中实现数据的“可用不可见”。

在洞察国内政府行业痛点问题后,我们推出了基于自主研发、技术领先的数智联邦平台(INSIGHTONE)形成的以隐私计算技术为核心的公共数据流通解决方案,目标是:让数据在技术信任机制下,以“可用不可见”的安全方式释放融合价值。

数智联邦平台(INSIGHTONE)平台采用同态加密、差分隐私、不经意传输、混淆电路、秘密共享等安全多方计算技术实现多机构间的数据加密计算,完成多方安全协同计算与企业数据资源合规市场化、安全应用化、价值最大化;平台支持 “图形化”方式进行联邦学习建模,流程简单、智能、可视;多方数据计算和交互等信息均会存储在联邦区块链,保证过程的不可篡改性与可溯源性,达到原始数据不出私域即能完成数据共享应用。平台通过提供安全可信的隐私计算服务,推动政府部门间的数据智能生态体系建设,实现数据价值的"重组式"创新。

方案业务流程图

(1)业务流程

洞见数智联邦平台作为隐私计算技术平台,需要数据流通的需求方及数据源方同时部署INSIGHTONE实体节点(业务服务节点、计算节点和存储节点),并通过节点进行数据开放和使用过程的对接。所有节点在逻辑上将不同区域的数据进行关联计算,物理上数据仍存在各自机构本地,数据并未出域。

INSIGHTONE数智联邦平台支持多方安全计算和联邦学习两种应用模式。

  • 多方安全计算(MPC)

在洞见数智联邦平台中,计算开始时,需求发起方发送申请认证与计算指令,平台将为各参与方提供必要的数据交换,数据将以密文的形式,结合秘密分享、混淆电路、不经意传输等多种技术传输和计算。结算结束时,各方汇聚得出计算结果,保证在传输和使用过程中隐私数据信息不被泄漏。

图1 多方安全计算流程

图1 多方安全计算流程

  • 联邦学习(FL)

各参与方将需要的数据资源与平台各自的安全计算节点进行对接后,一方机构(假设为银行机构等数据需求机构,有Y标签)发起模型训练项目,其他数据提供方配置待训练的X特征维度数据,发起方配置待训练的X特征维度和Y标签数据。各方数据配置好后,发起方启动数据对齐操作,进行数据对齐,各方只获取到交集ID,而不能获取到其他信息。数据对齐完成后可查看数据基本统计分布,开始模型训练任务,模型训练完成后可查看模型报告。模型在平台训练完成后,可通过可视化界面操作完成模型一键部署,进行在线调用以及调用监控分析。另外,数据应用的业务流转全流程都通过点对点网络和智能合约进行非人工干预的自动信息登记,存储记录到安全可信任的分布式区块上,使追溯体系从过去对单一数据中心的信任和依赖,转化为对公开透明、不可篡改的数据链的信任。

图2 联邦学习建模流程

图2 联邦学习建模流程

(2)架构说明

洞见数智联邦平台INSIGHTONE平台的架构设计包括计算资源管理、计算引擎管理、计算服务管理,并提供了平台运维管理能力和基于区块链的可信网关服务能力支撑。

图3 INSIGHTONE平台系统架构

图3 INSIGHTONE平台系统架构

计算资源管理支持对平台接入的原始数据进行数据预处理、数据加工和特征工程,完成数据计算前的数据治理工作,在数据接入类型上支持多种异构数据库、数据文件和标准接口形式的输入,以及为客户提供多种调度策略、配置组合的数据路由机制,保证为计算引擎提供稳定、高可用的数据来源。

计算引擎管理提供了安全多方计算和联邦学习相结合的隐私计算核心能力,支持秘密分享、混淆电路、不经意传输、同态加密等密码学基础算法库,以及封装出的基础运算、集合运算、多项式运算和复杂运算等多种安全多方计算能力,支持逻辑回归、决策树、聚类、神经网络等联邦学习人工智能算法库,提供典型联邦学习、快速联邦学习和无可信第三方联邦学习等多种技术方案,根据业务应用场景和参与方角色定位自动适配最优协议方案。计算引擎同时支持第三方异构算法接入,提供统一的互联互通协议连接来自不同厂商的算法框架。

计算服务管理基于计算引擎封装的隐私计算能力,构建不同领域的落地应用,如:多方数据智能的联合建模和联合营销,全局的在线模型服务和匿踪私密查询,对传统金融风控工具进行匿名化和隐私安全的改造,包括:分片决策引擎和匿态关联图谱,以及在政务数据应用场景中实现政务数据的隐私保护和外部安全合规应用。

运维管理功能提供了对INSIGHTONE平台的节点管理、用户管理、权限管理、计费管理、审计管理、报表管理和运行监控,整体管理和监控隐私计算任务的多方联合运行。

可信网关提供了与洞见自研联盟区块链和其他区块链架构的对接,为了增强多方参与隐私计算的可信性,基于智能合约完成计算存证、过程证明、价值计算和资源确权。

(3)应用场景

  • 匿踪安全查询

利用RSA非对称加密、不经意传输等密码学技术,构建出多方查询时的数据交互加密通信通道,在整个查询交互过程中进行数据混淆、数据加密、数据传输、数据解密及匹配,从而让数据服务方无从知晓查询方的查询信息,查询方无从知晓数据服务方除查询信息外的其余信息。如当两个政府机构之间进行数据合作,某一方的查询条件涉及国家秘密或个人隐私等特定敏感信息时,查询条件不能泄露给数据源方,使用匿踪安全查询功能即可实现对查询条件的隐私保护、防止信息泄露、零数据缓存的目的。

图5 黑名单匿踪查询举例

图4 黑名单匿踪查询举例

  • 安全联合统计分析

当政府部门或某个机构需要综合多个数据源进行数据统计分析,但数据源方又不愿意共享出其原始数据时,安全联合统计分析可以使得在不透露数据源方原始数据的情况下,完成数据的联合统计。数据提供机构接收到计算任务后,调用自身节点,在本地数据库查询所需数据信息,并根据计算模型定制计算逻辑,实现无需先归集数据的协同分析计算。计算结束后,需求方得到正确的计算结果反馈。

  • 多方联合建模

一般而言,银行等外部机构作为AI模型需求方,通常拥有大量个人与企业金融信贷记录数据(y),而政府拥有大量个人与企业数据(x),银行等外部机构可通过INSIGHTONE平台来进行联合机器学习建模。在这种模式下,政府和与银行机构原始数据不出私域,更加安全合规;银行可直接利用更多数据源的原始数据加工特征,数据维度更丰富、信息价值损失更少,建立的模型效果更好;利用平台的可视化交互界面完成AI模型的自动训练、部署、调用与迭代,可以缩短数据源与银行对接周期,更加高效快捷。

  • 银政企合作(地方金融服务平台)

帮助政府构建连接当地金融机构、公用事业单位、各厅局委办部门的中小微企业金融服务平台,有效结合跨行业各方数据源,在保障数据隐私安全的前提下为企业融资和金融机构信贷提供便捷、高效、安全的服务。

实现功能展示

匿踪查询:安全实现让数据拥有方无从知晓数据查询方的查询信息,而查询方也无从知晓拥有方除查询信息外的其余信息。

联合计算:支持各参与方在互不暴露任何客户ID及其它隐私信息的前提下让各方获取且仅仅获取客户交集,而无从得知任何交集以外的己方所没有的客户信息,不仅如此,还支持自由配置指定计算条件的情况下进行逻辑运算,以更加精准地挖掘满足业务场景所需的符合特定行为特征的客户。

联合筛选:在各方不暴露自有数据的前提下,利用安全多方计算联合外部数据勾勒出更加精准的存量用户画像和实现维度更广的行为特征筛选,从而实现多方联合营销。

联合建模:通过联邦学习算法模型,可以在保护各参与方原始数据的前提下只交换模型训练过程中加密计算的中间结果,结合内外部更为丰富的特征维度数据,从而实现多方的联合建模。

 INSIGHTONE功能矩阵

图5 INSIGHTONE功能矩阵

方案案例及效果

本项目面向政府内部以及外部数据需求方,提供安全可信的隐私计算服务,推动政府的数据智能生态体系建设,实现数据价值的"重组式"创新。

具体如下:

(1)全过程全方位保障跨域数据开放应用中的数据安全

跨域数据开放融合全过程涉及通信、计算、存储和权限控制四个环节,必须确保每个步骤和环节都数据安全不泄密,才能达成在数据融合全过程中保障数据安全的目标。各个域敏感数据由该域数据节点通过可信网关统一集中管控,包括数据分级、发布、授权、跨域数据加密解密、行为审计、动态数据脱敏等手段,做好敏感数据泄露防护措。

(2)跨域数据开放融合业务应用全生命周期安全保障

数据安全不泄密不仅仅是技术上的安全,还需要确保业务应用层面的安全。数据业务应用,不管是明文计算还是密文计算,都需要确保在跨域数据开放融合业务应用从合约发起到合约终止全生命周期中,数据不被滥用误用,超出了规定的使用范围。只有能够在数据开放业务流程中实现对数据具体用途和用量的有效控制,再结合全流程的密文计算,才能实现全生命周期的数据安全保障。

(3)外部公共数据分布式统一访问应用机制

公共数据具有海量、多源、多类、异构的特征,同时存在较多隐私敏感的数据,难以实现集中汇聚和统一数据治理。因此,需要提供分布式统一访问应用机制,在保障各接入方数据安全的前提下,实现外部公共数据分布式访问和对异构应用访问的适应性。

(4)良性闭环的数据价值链生态

分布在各个企业的海量数据,由于跨域数据安全和隐私不能得到充分保护以及数据保管责任,导致跨域数据从产生到应用的价值链存在大量壁垒,无法进行大规模的跨域数据共享融合。需要突破这些数据壁垒,打通跨域数据的应用价值链,使得数据基于业务应用需要在各个企业之间安全地共享和流通,实现数据共享融合安全不泄密,释放数据融合价值,产生数据生态网络化效应。

方案未来展望

本项目是国内第一个省级隐私计算平台项目,具有行业的标杆意义。建设的核心目标是提升公共数据存储、计算、应用、通用支撑和服务管理能力,从而为某省公共数据的开放、应用奠定扎实的基础,加强数据资源整合和安全保护,落实数据要素市场培育、加速释放数据要素红利,充分发挥数据要素的价值,推动培育数字经济新产业、新业态和新模式,发挥公共数据资源的经济价值和社会效益。

平台整体基于洞见科技 INSIGHTONE 隐私计算平台的成熟框架进行开发,技术架构上由四个层面组成,分别是数据平台、数据计算层、数据服务层和运营支撑层。

基于隐私计算的公共数据开放平台架构

图6 基于隐私计算的公共数据开放平台架构

平台核心价值:

增强政府工作透明度,提升政府公信力。通过数据开放,完善社会治理模式,有利于打造一个开放、透明、公开、公正的服务型政府。

辅助政府决策,提升公共服务水平。把原来分散在各部门的碎片化的数据聚合在一起,向社会开放,深层次挖掘数据价值后,可以反作用于政府决策支撑,进一步提升社会治理和公共服务水平。

释放数据红利,通过数据开放,打通部门信息壁垒,破除数据烟囱,企业通过开放平台可以利用和挖掘自己想要获取的信息。

有利于带动新兴产业。通过数据开放,可以集聚一批企业和人才,围绕数据挖掘利用进行研究开发,催生和培育一批移动互联网产业、大数据产业及数据服务产业,促进经济增长由粗放型向精细型转型升级。

激发社会化力量利用政务数据,开发对社会公众有实用价值的应用,既为中小企业提供了创新创造平台,形成新的经济增长点,又为社会公众带来实实在在的便利。