隐私计算:推进数据“可用不可见”的关键技术

闫树 袁博 吕艾临 等
推荐序 这是一个人人都在谈“大数据”的时代。然而,相信凡是在工作中和数据稍有关联的人,都会听到“数据孤岛”这样的说法。不同的数据拥有方,彼此的数据互不连通,形成了一座座“数据孤岛”。岛屿群间相互割裂,彼此孤立。然而,我们都知道,数据只有流通融合才能充分释放价值。例如,普惠金融需要更多的数据来完善建模,有效发放贷款,广告营销往往也需要跨行业的数据来提升精准度。然而,数据一旦交给别人就面临着失控的风险,数据流通的各方也很难彼此相互信任。 目前我国数据要素市场化配置尚处于起步阶段,甚至可以说,数据流通在某种层面还处于“男耕女织”的阶段。特别是在数据确权、开放共享、自由流动和数据安全等方面还存在很多阻碍:一是数据权属的界定仍不明确,在相关立法尚未健全的当下,行业内的实践中未能形成具有共识性或参考性的权属分割规则,产权争议、无法监管的风险经常令供需双方望而却步;二是频发的数据安全和个人隐私泄露事件加剧了社会对数据交易的不信任感,出于对国家安全、个人信息和商业秘密的保护,主体参与数据交易的主动性、积极性降低;三是确保流通过程的合法合规仍然较难把握。 那么,这两年越来越火热的隐私计算技术是干什么的呢?它如何解决此类数据流通面临的困境呢?本书从技术角度给出了答案。 简而言之,隐私计算是一种实现数据“可用不可见”的技术。通过这类技术,我可以在不把数据给你的同时,让你利用到我的数据价值(如数据先加密再密文计算)。当然,这样的技术相比直接计算,要耗费更多的计算资源,使用更复杂的算法和协议,消耗更多的网络带宽。这也就是为什么虽然多方安全计算早在20世纪80年代就被提出来了,但直到现在才“重焕新生”——当时隐私计算比通常的计算慢数百万倍,使得其在当时的条件下只具有理论意义。而最近几年,随着计算能力的增强(算得越来越快)、算法协议的优化(计算速度从慢百万倍降低到慢几百倍)和计算成本的降低(多计算一些…