查看原文
其他

案例分享丨一种基于隐私计算的数据交易模式研究




摘要:在传统的数据交易模式中,数据的所有权和使用权往往被集中在数据持有者手中,在交易的过程中交易对象为原始数据,这可能导致个人隐私泄露和滥用的风险。基于隐私计算的数据交易模式是一种旨在保护个体隐私的数据交易方式,基于隐私计算的数据交易模式通过使用密码学技术和隐私保护算法,使得数据在交易过程中可以进行加密和匿名化处理,将交易对象由原始数据转变为数据产品,以保护个体隐私,赋能数据要素以安全合规的方式进行流通。

关键词:数据交易;隐私计算;数据要素流通

作者:林庆、季慧丽、韩正野、刘晓霞、姜春朝

引言

自我国40多年的改革开放以来,商品和服务已从政府定价逐渐转变为市场定价。但当下要素市场发育仍存在不充分、不完善的问题,影响了市场发挥资源配置的决定性作用。2020年4月9日,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》。这是中央关于要素市场化配置的第一份文件,此文件对于形成生产要素从低质低效领域向优质高效领域流动的机制,提高要素质量和配置效率,引导各类要素协同向先进生产力集聚,加快完善社会主义市场经济体制具有重大意义。
劳动、资本、土地以及技术等是传统的生产要素,它们在推动经济社会发展方面发挥着重要的作用。随着科技的进步和数字化经济的兴起,数据作为全新的生产要素,为经济社会发展带来了新的动力和机遇。数据不仅可以为企业提供更加准确的信息和洞察,还可以催生一大批新产业、新业态和新模式,推动经济的高质量发展。与传统生产要素相比,数据作为一种虚拟的生产要素,具有可复制性、可传播性和创新性等特点。这使得数据在流通和交易中面临着一些独特的挑战。传统的商品交易通常是实物交付后就意味着此次交易完成,而数据交易则存在着数据产品和服务可以被卖方再次买卖的情况。
因此,为了确保数据的交易和流通的合法性和可追溯性,需进行确权登记、溯源控制等制度设计,以及通过隐私计算等技术对数据在交易过程中提供安全保障。同时,数据产品流通还面临着定价难的问题。与传统商品不同,数据的价值不仅取决于其本身的属性和质量,还取决于其所处的市场环境和应用场景。因此,如何进行合理的数据定价,是数据交易和流通中需要解决的一个重要问题。
数据交易通常在数据流通平台上进行,这些平台充当数据买卖双方的中介角色。这些平台提供数据交易的技术基础设施和市场场所,连接数据供应方和需求方,促进数据的交换和交易。现阶段数据交易对象为原始数据,存在着数据泄漏风险,可基于隐私计算技术将数据计算为数据产品,在原始数据不出域,数据可用不可见的前提下赋能数据交易过程中的数据安全性。
基于隐私计算的数据交易模式采用各种底层技术进行实现,包括安全多方计算(Secure Multi-Party Computation,简称SMPC)、同态加密(Homomorphic Encryption)和零知识证明(Zero-Knowledge Proofs)等。这些技术允许在不暴露数据本身的情况下进行计算和验证,确保数据的隐私性和安全性。


 数据交易模式现状探究

1. 数据本身直接交易模式

交易两方约定数据交易的内容和方法,洽谈并达成一致后签订数据交易合同,一方交付数据,一方完成付款。通常,购买方通过某种渠道了解到销售方出售某类数据,经与销售方协商后,签订合同,购买数据。这种模式,比较适合线下“一手交钱,一手交货”的交易,在数据黑市比较普遍,但交易不透明,市场监管难度大。此类交易模式,卖方很难控制买方的行为,特别是买方复制数据并与其他第三方再进行交易的行为。例如,A以1万元的价格出售1份数据给B,却很难保证B不拿这份数据复制100份,以每份1千元卖出去。此类交易模式,也容易侵犯数据主体的权益,购买的数据可能涉及较多法律风险。

2. 数据交易所模式

数据交易所由政府牵头成立,在政府监督管理下的集中场所完成数据供求关系撮合。比如贵阳大数据交易所。类似于股票交易市场,在数据交易所,买卖双方必须注册成为市场成员,通过交易所平台进行数据买卖。但是,由于信息不对称,数据易复制,交易双方担心数据被第三方交易所截留,进行非法套利。早期政府开办的数据交易所,数据交易很清淡。交易双方一旦达成某次交易,就可能不再依靠数据交易所进行下一次的交易。

3. 资源互换模式

资源互换模式主要存在于组织和个人之间,某公司或企业通过提供免费的应用服务,换取公司或企业对个人数据的使用权。资源互换模式也存在一些问题:第一,互联网平台与用户之间地位不平等、信息不对称,用户被迫接受数据授权协议,可能用重要个人数据换取了不太有价值的资讯服务,互联网平台也可能过度收集用户数据,或把从甲业务中收集到的个人数据用于用户不知情的乙业务上,从而造成隐私侵犯和数据滥用问题。第二,用户紧密依赖于互联网平台,难以行使对数据的可携带权,很难将自己的数据开放给或迁移到第三方平台上。第三,用户难以获得对个人数据的合理收益权。

4. 会员账户服务模式

会员账户服务模式比价适用于会员制交易模式。数据销售方出售数据平台的会员服务,数据需求方购买会员服务后,即可获得与会员层等级相应的数据访问权限及数据产品。

5. 数据云服务交易模式

销售商不直接提供数据,而是提供数据应用的云计算服务或数据应用系统,数据需求方购买云计算服务或应用系统,以此应用数据价值。

6. API访问模式

数据提供方通过应用程序编程接口(Application Programming Interface,API)将用户数据开放给经授权的第三方机构,以促进用户数据的开发使用。销售方既限定哪些数据可开放,也限定向哪些机构开放。

以上几种交易模式各有利弊,但交易的对象都为数据本身,在数据的流转过程中容易导致原始数据泄漏,各个参与方有可能滥用数据,不利于隐私保护。


 隐私计算应用路线

隐私计算是将数据可见的具体信息部分和不可见的计算价值两者进行剥离,实现“原始数据可用(可参与计算)不可见(不可传输原始数据)”,以此方式打消多个数据计算参与之间对于原始数据泄露的顾虑及阐明多方数据计算方式的安全性。以技术手段有效的破解“数据孤岛”困境,其本质是一种由多个参与方在安全信任的条件下进行多方协同计算的技术,各个数据参与方在不泄露计算规则及原始数据的前提下,通过密码算法机制对数据进行联合计算和分析,实现数据的融合价值,让数据智能从局部洞察发展到全局洞察。隐私计算的技术路线主要有安全多方计算、联邦学习等。


一、安全多方计算

安全多方计算是一种在没有数据共享和可信第三方的情况下,通过安全的算法和协议,安全地计算约定函数的技术和框架。通过使用安全的算法和协议,参与方对其数据进行加密或转换,并将加密或转换后的数据提供给其他方。使得参与方无法获取其他方的明文数据,从而确保各方数据的安全性。安全多方计算常用的底层算法包括同态加密、秘密分享、混淆电路、不经意传输、零知识证明等。

1. 同态加密

使用同态加密进行多方安全计算的思想比较直观,即为各参与者将自己的输入加密后一起发给某计算服务器,服务器直接在密文上进行计算,计算后将得到的结果的密文发送给指定结果方,结果方再将结果的密文解密,即可得到最终的计算结果。如此一来,计算服务器一直在密文上操作,无法看到任何有效信息,而参与者也只拿到最后的结果,看不到中间结果。尽管RSA公钥加密方案是乘法同态的,但是由于它是一个确定性的公钥加密方案,所以语义存在一定的不安全性。另外,ElGamal提出了乘法同态的安全加密方案。在多方安全计算中单同态加密常常与秘密分享方案相配合,组成完整的技术方案。

2. 秘密分享

秘密分享的基本思想是将数据切割成多份,并分发给不同的参与者,每个参与者持有其中一份,协作完成计算任务(比如加法、乘法运算)。因为参与者看不到数据全量信息,从而实现数据隐私保护。秘密分享方案最早是由Shamir和Blakley分别独立提出的(t,n)-门限方案,基本思想是将原秘密消息分成n个部分,只要获取到其中的t个部分即可重建出原消息,而小于t个分片则无法还原出原消息,也不能得到原消息的任何信息。很多研究者提出基于其他数学方法的秘密分享方案,但Shamir的方案仍然被认为是最实用的秘密分享方案。基于秘密分享理论基础,研究人员构造了GMW和SPDZ、SPDZ-2、MASCOT等多方安全计算技术。

3. 混淆电路

混淆电路基本思想是在电路中插入一系列的逻辑门和信号转换器,使得电路的行为变得模糊和难以理解,以此攻击者难以对电路进行逆向工程、分析和窃取敏感信息。例如对于一个XOR门,假设x和y分别是两个参与者A和B的输入。A首先为每种可能的输入生成一个随机密钥,然后加密并打乱真值表。B收到A的真值表以及和他输入相关的密钥后,用他自己的真实输入对应的密钥尝试解开每行,解密成功的即为他的输入对应的行。B将解密后的结果发还给A,A再解开他自己输入对应的行即得到最终结果。当然这里只展示了计算一个门的过程,单个门的输入是可以通过结果反推的。真实的场景下使用混淆电路,需要将每个门的输入输出串联起来,最终计算双方其实只能得到最终输出门的输出,中间门的真实输入输出是不会被解密的,也就是说双方都只能得到最终结果,而无法看到中间数据。

4. 不经意传输

不经意传输(Oblivious Transfer)简称OT,是密码学中的一个重要概念,用于在通信双方之间安全地传输信息,同时保护信息的隐私性。不经意传输是一种基本密码学原语(primitives),被广泛的用于安全多方计算等领域。OT最早在1981年被 Michael O. Rabin提出,在Rabin的OT协议中,发送者S发送一个信息m给接收者R,接收者R以1/2的概率接受信息m。所以在协议交互的结束的时候,S并不知道R是否接受了消息。该方案是基于RSA加密体系构造的。1985年S. Even,O. Goldreich,and A. Lempel提出了1-out-2 OT,在新的方案中S每次发送2个信息m0和m1 ,而R每次输入一个选择b。当协议结束的时候,S无法获得关于b 的任何有价值的信息,而R只能获得mb ,对于m1−b ,R也一无所知。

5. 匿踪查询

匿踪查询(Private Information Retrieval, PIR)技术在1995年由Chor等人提出。PIR技术更强调对于客户端(查询方)的隐私保护,通过PIR技术,客户端可以从不可信服务器管理的数据库中下载数据,同时不向服务器透露下载了哪个具体内容。根据参与检索的服务器数量不同,PIR技术主要分为两类: 单副本PIR和多副本PIR。单副本PIR又称为计算安全的PIR(CPIR),多副本PIR又称为信息论安全的PIR(IT-PIR)。在多副本PIR中,需要假设参与检索的服务器都保存了同样的数据副本且服务器之间不存在互相共谋。PIR技术的原理与不经意传输(OT)类似,通过对目标数据进行混淆、隐藏等方式实现隐私保护,区别在于,在PIR中要求传输过程的通信开销严格小于数据库规模(如果等于数据库规模,直接获取整个加密后的数据库同样可以保护客户端的隐私)。

6. 零知识证明

零知识证明(Zero-knowledge proof)是密码学中的一个重要概念,用于证明某个主张的正确性,而无需向验证者透露除了主张正确性之外的任何其他信息。在零知识证明的场景中,证明者(通常是一个称为Prover的实体)试图向验证者(通常是一个称为Verifier的实体)证明一个陈述(例如某个问题的答案)是正确的,而不泄露其他敏感信息,从而实现了强大的安全性和隐私保护。

二、联邦学习

联邦学习是一种分布式机器学习技术和框架,是人工智能发展的重要方向之一。旨在训练模型而不需要将原始数据集集中在一个地方。联邦学习通过将模型的训练过程推送到每个本地设备(客户端),并仅在本地设备上进行模型更新,保证各方原始数据不被泄露的情况下进行多方机器学习。在联邦学习框架下,各个参与方只交换密文形式的算法中间计算结果或转化结果,而不需要交换原始数据。在隐私计算多种技术路径中,联邦学习是效率与性能最优的方案,还可以通过与同态加密、秘密分享、差分隐私、随机扰动等MPC协议的结合使用,进一步提高数据协作过程中的安全性。


数据交易融合隐私计算技术

在基于隐私计算的数据交易模式中,通过多方协同计算得出不包含原始数据的数据产品并对该数据产品设定访问权限和使用条件。数据买方可以在满足条件的情况下获取该数据产品,并在本地进行调用或进一步计算或分析,而不需要直接访问原始数据。这种方式可以有效减少数据的泄露风险,同时保护数据持有者的隐私。

根据数据的敏感程度、合规性要求、计算效率和安全性等因素,可采取适当的隐私计算技术来保护数据隐私和实现安全的数据交易。

基于加密技术的数据交易:在数据交易过程中,可以使用加密技术保护数据隐私。数据持有者可以使用加密算法对数据进行加密,并将密钥提供给数据买方以解密数据。这种方法可以防止数据在传输和存储过程中被窃取或篡改,同时保护数据持有者的隐私。

基于同态加密的数据交易:同态加密技术可以在不暴露数据内容的情况下进行计算,这可以帮助保护数据隐私。在数据交易中,可以使用同态加密技术对数据进行加密,数据需求方只能获取计算结果,而无法获得计算之前的原始数据。这种方法可以保护数据的隐私,同时允许数据买方进行分析和计算。

基于差分隐私的数据交易:差分隐私技术可以在保护数据隐私的同时提供可用的数据分析结果。在数据交易中,数据持有者可以使用差分隐私技术对数据进行处理,使得数据的个人身份信息和敏感信息得到保护。同时,差分隐私技术可以保证分析结果的准确性和可用性。

基于安全多方计算的数据交易:安全多方计算技术可以在多方参与计算的情况下保护数据隐私。在数据交易中,可以使用安全多方计算技术将数据分割成多份,并分配给多个参与者。参与者可以在不暴露数据内容的情况下进行计算,并将计算结果合并。这种方法可以帮助保护数据隐私,同时允许多方进行合作和计算。


 隐私计算与数据交易平台层面互联

通过完成隐私计算与数据交易平台层面的互联完成技术对接及模型落地。可将隐私计算平台与数据交易平台接口互联,完成基于隐私计算的数据产品发布。数据交易平台可实时监控数据运行状态、数据运算时间、所用数据集、数据用途等信息,满足多方数据间在安全运算的前提下完成数据交易。通过在平台上发起请求,并通过平台授权模块进行数据授权,数据使用方可按照需要提交数据使用请求,平台个人数据授权模块功能可把此请求同步到数据所有权方,数据所有权方授权同意后,建立数据通路,并同步状态到数据使用方,根据数据资产情况进行贷款发放等业务需求。
为确保隐私计算平台与数据交易平台之间的有效对接,实现数据隐私保护和安全的数据交易。对接内容和实施方式需要考虑如下几个注意点。
数据传输接口:确保数据能够从数据交易平台传输到隐私计算平台。这可能涉及数据交换协议、API(应用程序编程接口)或其他数据传输机制的对接。数据交易平台需要提供相应的接口,以便将数据传输给隐私计算平台进行隐私保护计算。
数据格式和标准:确保数据能够在隐私计算平台和数据交易平台之间进行正确的解析和理解。需要定义一致的数据格式和标准,以确保数据在两个平台之间的兼容性和互操作性。
认证和授权机制:确保只有经过授权的用户或平台能够访问和使用数据。需要建立认证和授权机制,以验证用户身份和权限,并限制数据的访问和使用范围。
加密和解密机制:如果数据在传输过程中需要进行加密和解密,需要确保隐私计算平台和数据交易平台之间的加密和解密机制一致,并提供相应的密钥管理和安全性保障。
数据使用和合规规则:确保在数据交易过程中遵守相关的隐私法规和数据使用规则。需要明确数据的使用范围、目的和合规要求,并确保隐私计算平台和数据交易平台之间的数据使用符合相关法律和政策。
安全性和审计机制:确保数据交易过程中的安全性和可追溯性。需要建立相应的安全机制,包括数据传输的加密、身份验证、访问控制等,并提供审计和日志记录功能,以监测和追踪数据交易的行为。
通过将隐私计算技术与数据交易流程相融合,可将政务、金融、医疗等领域的数据逐步开放,推出便民应用场景,保证数据用法可控可计量,有效解决授信核查难等问题,提高审批效率,促进数据要素流通。
来源:《中国科技信息》杂志
附《中国科技信息》杂志正文页:


END

热门文章:




隐私计算头条周刊(10.30-11.5)


基于隐私计算的电力数据共享技术系统解决方案及应用


招标 | 近期隐私计算项目招标中标案例


2023年隐私保护领域的现状和未来


加入我们丨OpenMPC社区招募实习生

素材来源官方媒体/网络新闻
继续滑动看下一个
开放隐私计算
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存