解读2020:保护数据安全,离不开区块链与多种技术融合创新

共 9391字,需浏览 19分钟

 ·

2021-01-07 06:33

最近走读了一些国民级 APP 的隐私条款,总的来说大同小异。


首先,罗列出诸多功能必须使用的个人信息、实名认证、支付信息、终端信息和系统权限、日志和行为数据等;然后友好地告诉用户,APP 要获得用户的隐私信息时,会先征得用户授权同意;当然,如果不授权,有些功能和服务自然是不能用的;最后,在“维护系统安全稳定运行"等必须的条件下,APP 还有可能采集其他相关信息。



更进一步,隐私条款会告诉用户,APP 不免会跟第三方通过各种方式共享部分数据(在用户同意的前提下),有些数据会用于用户画像、广告推送;他们会努力保护数据安全,允许用户删除数据和关闭授权等等。

隐私条款还会特意声明,技术是有局限的,互联网和计算机本来就不是无懈可击的,第三方服务是不受控的……总之,APP 本身是很努力的去符合法律法规、国家安全、公共安全等要求的,但风险是存在的,免责条款是面面俱到的……

这些隐私条款一般很长,相信不会有太多用户全部仔细读完,即使读完,为了使用 APP,一般也不会不同意。

于是,个人数据自然地从用户终端向服务器流动,用户获得了社交、电商、音视频等等服务,而个人数据的最终宿命,将寄希望于隐私保护条款、企业端的数据安全能力、以及 APP 的商业运作模式了。

  数字化生存的平衡之道

在数据成为生产要素的当下,许多人都意识到了数据的价值,也意识到数据可被复制、被监测、被计算、被用来作为商业机器的燃料。

各大厂商对数据的把持,造就了巨大的数据孤岛;而其中不规范不严谨的操作,有可能使数据成为区别对待用户的依据,甚至成为骚扰用户、助长诈骗的工具。在既往的技术条件和运作模式下,用户对数据的“所有权”、“控制权”和“隐私权”并没有得到充分的保障。

近年来,国内外都出台了数据安全和隐私保护相关的法律法规,这里不一一罗列。法律法规的健全,有助于更精确、更全面规范数据采集和使用行为,约束违规行为并做出惩罚。

立法固然起到规范和震慑的作用,我们也知道,不规范的行为发生后,数据泄露已经不可逆,伤害可能已经构成。

实际上,在数字化生存的时代,一切数字化和网络化的行为都难免留痕,对已经暴露在网络上的数据,无论技术和协议都无法完全禁止监控、采集、计算和传输。

除非用户把数据与网络隔绝,如步数、个人照片、听歌品味等,仅仅保留在个人设备上或自己的脑海里,不分享也不计算,于是也得不到应有的反馈,如我们已经习惯的朋友点赞、丰富的个性化音乐资源、在线健康服务等。

事实上,我还是愿意和音乐 APP 合作,共同完成个人兴趣画像,以帮我发现更多的优秀音乐,但我不希望它把我的个人信息和兴趣画像交给其他方,然后给我推送过多广告。所以,从人们改善生活的需求出发,需要结合技术和立法,为用户的权益保护和便利体验找到平衡点。


在另一端,相较于个人数据,企业数据则更丰富、海量。首先,通过业务运营,企业已经采集和托管了大量用户数据;另外,企业也可以从业务合作中获得第三方数据,或者获得其他机构授予的诸如信用评级、资质、牌照、研报等数据;在生产过程中,企业产生了自有知识产权数据,如专利、品牌、勘察素材以及研究成果等;在经营中,会有组织架构、财税、利润成本等数据等。

以上这些数据,或者牵涉用户隐私,或者事关企业自身商业机密,必须隔离和保护;同时,为了实现更大的商业价值,企业也必须在合法合规的前提下,采用特定方式分享和交换数据,进行诸如营销、风控,以提升生产效率、降低成本,增强了自身的竞争力,最终也提升了对用户的服务质量。

我们警惕于数据的滥用、隐私被侵犯,但并不等于禁止数据的生产和流动。个人和企业都必须汇入信息洪流,并在逐浪的过程中保护自己的安全和隐私,找到平衡之道。

  数据要素的核心需求

在数据被采集、传输、存储、计算、应用和清理的整个生命周期中,有着数不清的环节和参与者,随着不同的场景变化,会衍生出不同的需求和挑战,难以一一列举。不积跬步无以至千里,我们首先聚焦于数据要素的三大核心需求,即:“安全存储”、“可信传输”、“协同计算”。


安全存储

“安全存储”指满足数据的安全计算和可靠存储要求,是数据要素释放生产力的基础。安全存储的目标首先保护数据在载体上的完整性、正确性,且可备份可恢复。其次,确保只有数据属主才能控制数据访问,数据不会泄露,不会被越权访问,不会被篡改,即做到“不丢、不错、不泄露、不篡改”。

根据位置和方式不同,数据存储所面临的挑战和需要使用的技术也有所不同。我们面向几个关键场景阐述安全存储方案。


终端设备存储

个人数据往往存储在本地设备上,如手机、个人电脑、物联网设备等,具体数据包括个人信息、与身份验证相关的证书和密钥、APP 产生的本地数据、照片视频等文档、由智能设备采集的信息如步数、环境信息等。

本地数据存储的安全挑战在于是否会被恶意程序访问、是否会出错和误删除。对于关键数据,可采用以下方案增强保护。

a) 加密存储:采用高强度的多重加密技术,将数据加密后存储,且在存储时加入数据水印、数据指纹等验证信息,避免数据出错和被篡改。相关密钥由用户掌握,存储于独立空间。

在用户使用密钥时,提供防窃取的输入方式,以及引入生物特征、手机短信等多因子验证的加强方案。另外,为用户提供密钥恢复或重置方式,避免密钥丢失或泄露。

b) 访问控制:将关键数据隔离存储于诸如 TEE 等安全区域,并精细化地控制应用层对数据的访问权限,拒绝非授权的读写和未经允许的网络传输,并对数据的访问和传输留痕审计,对可疑操作提出警示。

c) 存证追溯:基于区块链等技术对数据进行存证,在可信网络上留存数据指纹和归属信息,在本地数据出错时可以用数据指纹校验和协助纠错恢复,进一步还可以将对数据的访问和操作记录进行存证,这样对数据的所有权、使用情况有争议时,可以得到区块链网络的可信背书,尤其适用于版权相关数据。

托管存储

托管存储可以为用户提供更大的存储空间、更便利的使用体验、更多的访问和分享方式,同时也意味着用户的数据离开了本地设备存到了其他存储空间。这个空间可以是其他设备,也可以是云端服务或者分布式文件系统。托管方案须满足以下特性。

a) 便利性:数据可以跨设备、跨网络使用,可生成多个备份,且能拓展用户的存储容量。为此,应关注数据导出、传输、恢复操作的体验和效率,降低相关成本开销,为用户提供友好便捷的体验。

b) 安全性:数据从用户设备导出到托管服务时,必须经过用户明确授权,传输过程应采用 SSL 等机制加密,在其他设备或云端服务存储时也进行高强度加密,托管方并不掌握数据的密钥,仅负责数据的存储而无法查看数据明文。

在网络和访问层,用严密的机制防止越权访问,仅有用户或已授权的第三方可访问数据。保留数据操作和数据访问的日志,结合区块链存证等机制支持追溯。

c) 可靠性:生成多个数据副本分片冗余存储,借助纠删码等技术,在优化存储效率的前提下保证数据可检测、可恢复,确保存储的可靠性。在支持多方共同托管的模式里,结合区块链和分布式存储方案,由多方共同管理数据,避免单点失效。

d) 可控性:即使数据被托管,数据的控制权依旧是在用户手里,属主通过密钥、私钥、身份验证等机制,确保自己可以访问数据。用户可以灵活选择不同的托管方案和不同的托管服务提供者,用户可以自由地将数据从一个托管服务迁移到另一个托管服务,也可以彻底删除在某一个托管服务上的数据,托管方无法禁止用户访问、迁移、删除数据。

企业端存储

对于企业来说,数据远比个人数据更加海量、复杂度更高,可能包含着诸多用户数据。因此,企业的数据存储必须更严格遵循行业规范,满足安全性、可靠性、合规性等要求,建立完善的管理机制,把控相关角色、流程、系统,避免操作风险和道德风险,抵抗内外部攻击。此外应能支持链上存证追溯和第三方审计。

大型和专业的企业里,基础的数据存储方案已经相对成熟,其安全性取决于企业重视程度和投入成本。

在数字化时代,企业更需要关注数据来源的安全性,以及对个人数据的采集和存储过程能否确保用户权益。例如,在群体数据采集时,经过用户授权后,企业采用差分隐私算法采集和处理用户数据,得到的数据去除了标识和个体特征。

另外,机构对个人数据的存储需要保证“可遗忘权”,在用户明确指示或数据生命期结束后,需要清理相关的数据。

可信传输

“可信传输”指在不同所有者和控制方传递过程中,数据可被全流程追踪,权益受保护,并保证数据的可信任、可检验,是数据要素释放生产力的必要步骤。

在金融、政务、工业、个人应用等场景,业务通常由多个参与者共同完成,在业务流程中会互相交换数据,如发送身份信息、证照、合同、电子票据或扫描件等,其类型包括凭据或明文形式。

数据在个人和个人之间、个人和机构之间、机构和机构之间传输,面临参与者身份合法性、数据合规性和完整性、网络通信等方面的风险和挑战。


在传输过程中的主要风险及解决思路如下:

参与者的身份是否可信?

首先,可信传输方案要求参与者身份可知可验,参与者包括数据拥有方、接收方、对数据验证背书的权威机构、以及传输和验证的各环节参与者。

广受认可的 W3C DID(Decentralized ID)规范,已经结合区块链、公钥基础设施(PKI)和去中心化公钥基础设施(DPKI)体系,首先对参与者进行 KYC(Know Your Client)验证,然后在网络上为各方分配唯一的身份标识,该标识可以在链上进行分布式验证,达成身份可信,且可保护隐私,身份可控匿名,且可审计。

发送者和接受者是否有权操作和访问数据?

对于个人数据,用户使用自己的证书或私钥进行数字签名,即宣称了自身对数据的所有权。

对诸如身份证明、作品版权、医疗检查结果等需要权威机构背书的数据,则由权威机构和用户一起共同确权,表示用户对数据拥有合法的所有权和操作权,并将确权记录生成凭据在区块链上进行存证。

在传输时,发送方向接收方给出明确授权,接收方才可访问数据,且通过分布式数字身份体系验证发送方身份,用发送方的数字签名验证数据的权属,相关的授权和验证记录、传输操作可在区块链上存证和审计。

是否可验证数据真实性、完整性?

在传输的过程中如果出现干扰、通信错误或人为干预,会导致数据出错、丢失甚至被篡改。基于区块链构建可靠可信网络,将数据的发送方、接收方、各方所确权授权信息以及数据本身的指纹,都在链上存证,凭借 Hash 等数字指纹算法的单向性、可校验性,以及数字签名的不可篡改性,接收方在链上验证传输过程的各维度信息,确保其真实性,完整性,确信在传输过程未被篡改。

传输模式是否会导致数据泄露?

不恰当的传输操作会导致数据泄露。常见的通信模式包括点对点传播,接力式传播,广播式传播等,直接的点对点的传播是比较可控的;接力式传播代表在发送方和接收方之间增加了第三方环节;广播式传播代表更多第三方不必要的收到了数据。后两种方式中,即使是加密过的数据,依旧面临被暴力破解的风险。所以,将数据直接发往区块链上,用智能合约承载、借助交易广播、区块同步机制传递数据,并不是最推荐的方式。

在可信传输方案中,数据的明文并不会在区块链网络上广播,仅将数据的数字指纹锚定在区块链上,如涉及明文,则采用链下方式点对点传输。即使是需要代理传播以应对复杂的网络环境,也需要审慎的选择路由、构建安全的通道,且和通道上的参与者签订相应的协议,对数据的转发和留存动作可记录可审计,如有问题可追责。

传输技术本身是否足够安全?

数据可以由发送方通过灵活的方式传输到接收方,包括点对点网络、邮件、社交工具等,也可以托管到文件服务器、云盘等位置,授权接收方去获取。无论什么方式,均须采用高效的网络传输协议保证时效性,并做到全链路的物理隔离和加密保护,防止数据被窃取。

发送方可采用“一次一密”的方式加密数据本身,并通过密码信封将授权信息和解密密钥交给接收方,接收方在限定时间内用指定的方式和发送方建立点对点的传输通道接受数据,或到托管服务器上拉取数据,托管服务器和读写方之间均支持加密通信,可防窃听防攻击。

可信性是否可以跨边界?

随着应用场景的丰富、参与者的增加,协作关系会变得更加庞杂,出现多层级、多应用、跨地域的生态圈,如国家级网络和省级网络分层分组,或者多个联盟链应用进行互联,信任的传递均突破了原有边界,技术和治理模式迥异。

针对这种情况,无论原来是否已经使用了区块链技术的系统,都可以基于区块链的可信机制,在链上锚定数据和资产内容、追溯数据的授权和使用记录;然后引入跨链互联方案,将多个区块链网络连接在一起,运用 SPV 证明、零知识证明、哈希时间锁定、分布式事务控制等技术,实现数据可信证明,以及安全稳妥地完成事务。

对于未接入区块链的独立领域,如提供汇率、天气等信息的数据源,可以借助“预言机机制”,打通链上链下通道,使链下经过确权、筛选的信息可以锚定到区块链上,作为可信数据使用。结合跨链、预言机等机制,可以使数据可信性得以跨边界传递。

协同生产

“协同生产”指打通多方之间的数据,互联互通,让更广范围内的更多数据联合发挥更大价值,在此过程中确保隐私和合规。协同生产是数据生产力释放的形态。

考虑到数据生命周期每个步骤都会发生在不同地方,有不同角色和系统参与,如用户终端、APP、网络、不同企业的服务器。观察和分析数据的流动和实现协同生产,需要建立闭环模型,再进行细分,针对性地拿出对策。

通过分析个人、企业的关系,我们得出个人和企业之间、企业和企业之间的两大价值回路,且这两个回路之间还需建立闭环关系。


个人和企业的价值回路

与个人相关的数据,首先产生于个人终端上,个人和企业之间一旦签订了用户协议和隐私协议,即建立起了契约关系,后续只要用户授权同意,企业即可按协议使用数据。诚然,数据一旦离开用户设备,用户就难以主动控制数据的流动,还取决于企业的运作和相关法律法规的完善。

用户要主动地、最大程度地保护自己的隐私,更稳妥的方式是对数据分级对待,有的数据可以给出去,有的数据绝对不会给出去,或者用“去标识”的密文方式提供数据。这是用户“自主管理”敏感和隐私数据的起点。

数据分级的边界在不同场景会略有不同,仍需要大量实践验证细化。

目前在金融领域已经有比较清晰的分级定义(参见《金融数据安全 数据安全分级指南》JR/T 0197—2020),从是否危害国家安全、公共权益,是否危害企业合法权益和个人隐私等维度出发,按严重程度从严重危害到轻微或无明显危害,将数据的安全分为五级。无论是个人还是企业的数据,均可以参考此标准,并根据不同场景的特点进行细化。

总的来说,我们需要对终端产品的体验和技术体系进行修订,在交互时给用户明确和友好的指引,并警示高风险动作,确保用户仅仅授权应用运行必要的数据,如不包含个人信息的听歌列表。

而针对实名身份、位置信息、支付账户等敏感信息,用户根据场景需要选择性的披露部分字段,或者用“证明取代明文数据”的方式,通过非对称密码学、差分隐私、分布式数字身份等方案,基于可信的分布式网络,引入权威机构背书,采用分布式验证机制,在链上完成多个参与者之间的交互和可信验证。

如用户使用 APP 时需要做实名认证,以前是直接填写身份证、手机号或银行卡等,在分布式数字身份体系中,用户只需出示权威机构颁发的密文凭据,APP 从链上进行分布式验证,而无需获得明文。

这样,敏感信息从未离开用户的控制范围,实现了脱敏和去标识化,用户在隐私得以保护的基础上,从企业那里获得应有的服务。

企业之间的价值回路

对企业来说,企业和其他第三方有交换和融合数据的需求,进行价值变现,这也是“数据成为生产要素”所鼓励的方向。随着法律法规日趋严格,企业应避免向第三方直接提供明文数据,一方面是保护自身的商业隐私,也是保护与自己签约的用户的隐私,所以,“隐私计算”的概念目前被广泛关注。

隐私计算以安全多方计算、联邦学习、同态加密计算等代表性技术为基础,并引入区块链作为身份认证、历史追溯、激励惩戒的可信平台。

数据不离开己方的边界,在用户授权、数据脱敏、去标识、防止对个体画像等前提下,通过可信网络和密码学算法进行联合计算,为实现“数据可用不可见”的效果提供了极大可行性。

企业之间采用隐私计算模式共同完成营销、风控、机构间账目管理等业务场景,构建商业版图,在保证安全合规的同时,数据价值得以释放。

企业之间的协作关系可以采用多种方式,如偏中心化的模式,企业委托权威机构作为协调方,权威机构掌握数据或数据的访问权限,这时只需要由权威机构在各企业之间进行隐私隔离即可;第二,多中心模式,无需任何协调的主体或协调服务,企业可以加入到联盟网络,点对点地和其他参与者进行单方或多方的隐私计算,各自无需输出任何数据明文,并最终获得计算的结果。

以上二种模式各有各的使用场景,可以根据数据敏感性、合作模式、行业合规要求、成本和性能要求等维度进行分析取舍。

两大价值回路的闭环

最后,无论数据在多少个主体间流动,采用什么样的协同模式,产生了怎样的价值,如果其源头是来自用户,都应该用一定的方式回馈到用户,如面向用户的商业分润,或为用户提供更优质的服务,这样才算是完成全流程的闭环。

这就要求在分布式环境里实现对数据确权、对使用情况追溯、根据激励机制进行定价记账等,以鼓励用户放心、持续地使用服务,产生和提供数据。同时,企业通过向用户提供优质的服务,吸引了更多的用户,企业运营的非敏感业务数据得到更大丰富,和合作伙伴之间更容易找到互利共赢且合法合规的合作方案。

从个人到企业、从企业到第三方企业,数据顺着两大价值回路流动,最后再从企业回到个人,完成了全程闭环。这个过程需要意识的创新、治理的创新、技术的创新,同时能良好的支持监管审计,数据的使用者可以逻辑自洽地“自证清白”,持续地实现良性价值。

  数据要素的基础设施和应用

目前,以人工智能、物联网、5G、区块链为代表的新基建如火如荼,采用多种技术进行融合创新,为治理和运作模式的进化打开了思路,提供了广袤的可能性。

开源开放的思想已经成为技术领域的主流,许多技术解决方案都可以从开源社区获得,开源社区和产业生态的蓬勃发展,有望于为个人和企业提供更成熟易用、更低成本、更具备可实操性的基础设施。

区块链

区块链运行在分布式网络上,多方参与、多方共识、透明协同,数据难以篡改、可全程追溯,结合链上智能合约和链下服务接口,可以灵活地实现链上链下的计算方案,如存证溯源、分布式身份标识等,再结合多群组、跨链、预言机、分布式存储等方案,可以实现多维度的数据隔离和跨边界信任。

隐私计算

隐私计算是指在保证数据提供方不泄露敏感数据的前提下,能分析计算数据并能验证计算结果,安全地实现数据价值。隐私计算并不是一项单一技术,而是包含了人工智能、密码学、数据科学等多学科的综合性技术体系。在目前实践中,隐私计算通常与人工智能的其他方法结合,应用于多方联合机器学习建模。

大数据

在数据基础设施的关键技术中,适应于海量、多样化数据计算、存储、交换、分发的大数据底层技术框架和平台是重中之重。

优质的大数据应用平台要具备可靠基础计算存储数据交换能力,具备支持机器学习的能力,具备高并发、高可用、多租户隔离和资源管控等执行与调度能力,具备让业务与数据快速实现互动、高效生产报告的能力,还要具备提供数据地图、数据脱敏工具、数据质量工具的能力。

云服务

伴随着虚拟化、云平台、分布式资源管理、海量分布式存储、云安全等核心技术的发展,人们能快速、可靠、低成本、高效率地计算和存储数据,有助于构建数据要素市场的稳健基础设施。

云计算以其广泛接入、资源共享、弹性伸缩、按需使用、容错恢复的特点为大数据提供了强大的计算和存储能力,实现了高弹性、高可用、低成本和低风险的服务,确保了业务交易和业务数据的稳定性与安全性。

面向个人的基础设施


在 5G 时代,用户的电脑、平板、手机、乃至物联网均可作为个人终端。终端的基本架构包含加密通信、安全存储等基础能力,以妥善管理私钥和敏感数据;实现分布式事务管理、区块链网络事件监听、加密凭据、可追溯的授权等方案;以及承载互联网业务、金融和数据资产等相关的场景化业务流程。

根据终端平台和软硬件能力的差异,功能模块可以灵活剪裁、组合,以适应多层链网、边缘计算等环境,通过 SDK 和网关接口接入到托管服务,使用二维码、丰富的用户界面和交互方式,提供优雅易用的用户体验。


基于新一代数据要素基础设施,在分布式协作网络和隐私保护基础上,用户可以在线上使用诸如政务、教育、医疗、金融等服务,可以达成“数据多流动,用户少跑腿”的效果,用户体验良好,办事效率高,提升了满意度,又降低了隐私泄露的风险。

面向企业的基础设施


企业之间基于区块链构建可信的分布式协作关系,支持身份验证、准入审批、权限控制、监管审计、数据目录、多层链网访问路由等功能。

在可信网络基础上,各参与方独立采用自己的大数据服务管理数据,调度计算资源,源源不断地输送、整理和分析数据,用联邦学习、安全多方计算等技术,在数据不出库的前提下,进行协同训练、隐私计算。

从底层的数据接入,到最顶层的数据平台,该解决方案全方位整合了计算资源和数据资源,为数据价值的转换和发掘提供了全生命周期的安全隐私保障,为实现全面解放数据生产力提供了强有力的技术基础设施。


企业的应用场景非常丰富,面向政务、金融、智慧城市、工业、医疗、交通等领域,政府、企业、法人主体等参与者形成立体生态。

政府组织或企业自发成立产业联盟,互通有无,高效协作,让数据流动起来,但又不暴露用户和企业的隐私,真正实现数据可用不可见,支持联合风控、联合营销、信用评级、合规最小集的数据贡献等场景,在释放数据价值的同时,支持数据监管审计、合法合规、可持续可增长。

  结语

在过去,“用户愿意让渡隐私换取便利”这种说法或许存在,但当时用户面临的是“艰难的抉择”,并没有合适的技术支持用户同时获得服务和保护隐私。从用户端到企业端,数据要么如脱缰之马,无序流动;要么成为价值孤岛。有的参与者大而不能倒,有的参与者则被数据霸权者所针对。

如今,我们可以采用新的技术、新的思路,力求在便利和安全之间取得平衡。由多方共建可信网络,满足“安全存储、可信传输、协同生产”三个核心需求,使得数据的产权可界定,价值可存储、可评估、可流通,数据按隐私和安全等级细化对待,数据价值回路清晰合理,并通过科学有效的监管和治理机制,确保技术和业务的创新得以良性开展。


融合创新的数据要素新基建满足以下四个条件:具备可管控的底层技术,使基础设施从源头上被信任;具备可验证的安全性和稳定性,使基础设施真正可靠;具备高效率的计算能力,使基础设施能有效支撑数据发挥作用;具备健全完备的数据流通商业模型和激励机制,使基础设施可持续运转。

在此基础上,个人与企业等多方共同努力,才能在保护用户隐私的同时,实现合法合规的数据流动,服务个人业务、实体产业和公共事务等多种场景,最终达成解放数据生产力目标。

文章来源InfoQ



浏览 44
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报