数据不出门就能被利用，联邦学习让机器学习工程化-轻识

《中智观察》第1704篇推送

作者：中国软件网

编辑：小宏

编审：杨小天

头图来源：知乎Clustar

近年来，人工智能相关技术持续演进，与云计算、大数据、物联网、5G等技术不断融合，成为引领未来的新兴战略性技术，是驱动新一轮科技革命和产业变革的重要力量。
在新科技革命和产业变革的大背景下，人工智能产业化和商业化进程不断提速，正在加快与千行百业深度融合，正在促进新兴产业之间、新兴产业与传统产业之间以及技术与社会的跨界融合发展。
中国软件网、海比研究院认为，人工智能与产业深度融合，将成为企业释放数字化叠加倍增效应、加快战略新兴产业发展、构筑综合竞争优势的必然选择，全面梳理人工智能技术、应用的发展态势，对推动人工智能持续健康发展至关重要。

为此，中国软件网、海比研究院特别推出了“人工智能行业洞察”系列报道，通过对人工智能技术、应用、企业等深度报道，助力企业数字化、智能化。

目前，中国软件网、海比研究院已经推出的AI报道包括：

·HR拥抱人工智能，8大场景重塑无限可能

·一文透视“北京智源大会”十大AI热点

·让机器人解惑传道，对话式AI能否为企业带来巨量的业务

·MLOps：让AI应用周期从9个月缩短到几天

·超大规模与轻量化模型，谁会成为AI主流？

·大型机没有灭亡，反而正成为AI、混合云的宠儿

·向死而生，浴火重生，创新能让AI芯片新生？

·从蜂拥而上到纷纷退场，AI芯片谁在“裸泳”？

·谷歌微软阿里华为都爱上大模型，AI开发边界被打破

两个百万富翁街头邂逅，想比比谁更有钱。但是出于隐私，都不想让对方知道自己到底拥有多少财富。在不借助第三方的情况下，如何让他们彼此知道谁更有钱呢？

这就是姚期智院士在1982年提出的隐私计算领域经典的“百万富翁”问题。

其实，在手机输入法的下一个词预测、疑难疾病诊断、汽车自动驾驶、智能家居系统等AI应用中，同样面临着需要大量数据进行模型训练，又需要保护用户数据背后的隐私的问题。

作为一种机器学习方法，联邦学习的核心理念是“数据不动模型动”，通过用户数据不出本地的方式，完成云端模型训练，实现了“数据可用不可见”，成为隐私保护计算的主流技术之一。

海比研究院认为，目前以联邦学习为核心代表的隐私计算技术逐步发展，并在实践中不断走向成熟，正处于隐私计算商业引爆的前夜，2022年或成为规模化商业落地的第一年。

1.理念：联邦学习为机器学习开了一扇窗

AI模型需要大量的数据来训练，而没有数据和数据背后隐私如何保证呢？

目前全球有30亿部智能手机和70亿台连接设备，这些手机和设备不断生成新数据。传统的机器学习需要在处理数据之前集中收集数据，以产生机器学习模型和最终形成更好的产品。

如果我们能够在生成数据的设备上运行数据分析和机器学习，并且仍然能够将所学知识汇总在一起，那不是更好吗？

AI模型是靠数据来“喂养”的，而且需要大量优质的数据。现实生活中，除了少数巨头公司能够具备这样条件外，绝大多数企业都存在数据量少、数据质量差的问题，不足以支撑人工智能技术的实现。

另外，数据是分散在不同地方的，放在不同的数据中心和不同的国家的，因为各个国家都有一些数据保护法规，很难把数据拿出来。

有些客户的数据量太大，没办法放在一个数据中心，可能需要放在多个城市、多个地方。

还有一种情况是不同的企业之间要进行数据共享、数据交换，但是因为数据的隐私，如《网络安全法》合规要求等，无法把原始数据直接给别人。

在这些情况下，催生联邦学习技术。

谷歌首倡的联邦学习正在不断发展进化。

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在2016 年由谷歌最先提出，用于解决安卓手机终端用户在本地更新模型的问题。其设计目标是在保障大数据交换时的信息安全、终端数据和个人数据隐私、合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。

信通院的报告认为，联邦学习本质上是一种分布式机器学习框架，能做到了在保障数据隐私安全及合法合规的基础上，实现数据共享，共同建模。

其核心思想是在多个数据源共同参与模型训练时，不需要进行原始数据流转的前提下，仅通过交互模型中间参数进行模型联合训练，原始数据可以不出本地。这种方式实现数据隐私保护和数据共享分析的平衡，即“数据可用不可见”的数据应用模式。

总体来说，联邦学习技术，可以实现多个机构间构建统一的数据安全、高效、合规的多源数据应用生态系统，实现跨机构的数据共享融合，通过系统扩大样本量、增加数据维度为大数据应用提供高精度模型构建的有力支撑，进而提供更丰富、高质量的大数据服务。

联邦学习的目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。

由此我们可以发现，联邦学习本质上是一种分布式机器学习技术，或机器学习框架。联邦学习是机器学习领域的一个新兴领域，与传统的集中式机器学习方法相比，具有显著的优势。

一是保护数据安全，将训练数据集保留在设备上，因此模型不需要数据池。

二是保护数据多样性。边缘设备中的网络不可用，可能会阻止公司合并来自不同来源的数据集。而联邦学习有助于访问异构数据，即使在数据源只能在特定时间进行通信的情况下也是如此。

三是实时持续学习，使用客户数据不断改进模型，无需聚合数据即可持续学习。

四是提升硬件效率，这种方法可以使用不太复杂的硬件，因为联邦学习模型不需要一个复杂的中央服务器来分析数据。

2.技术：开源联邦学习框架兴起

了解联邦学习的分类，可能有利于了解其技术和应用的范围。

按照数据特征与分布方式的不同，联邦学习可以分为三类：

横向联邦学习，在特征趋同的情况下对不同样本进行联合互补，用更大的样本数据提升现有模型的精度。

比如罕见病研究中，每个医院病例的数据维度基本一致，且病例样本有限，通过联邦学习可以在保障隐私的前提下，汇聚不同医药的相同病症的数据，提高模型训练的能力。

而纵向联邦学习，比如同一个人，在样本趋同的情况下，对不同特征进行联合互补，用更多的特征数据，补全对某一客户样本的画像。

比如同一地区的银行、电商、运营商等用户集可能包含该区域的大多数居民，但不同机构用户数据特征不同，如果希望基于用户的购买、收支、位置等数据进行信用等级评估，需要融合三方数据做回归模型。

迁移联邦学习则是一类样本上面统一的模型，可以迁移到另外一批数据上面。有一些不同企业数据之间可能是互相影响的，就需要用个性联邦学习来做统一的分析。

迁移联邦学习适用于两个数据集的重叠较少，不仅样本不同，而且特征空间也有很大差异的场景下。

用于联邦学习的流行框架包括Tensorflow Federated、Federated AI Technology Enabler（FATE）和PySyft，以及国内的FederatedScope。

PySyft是一个基于深度学习库PyTorch的开源联合学习库，在主流深度学习框架PyTorch和TensorFlow等中使用联邦学习，差分隐私和加密计算（如多方计算（MPC）、同态加密（HE））将隐私数据与模型训练分离。

据介绍，PyTorch支持联邦学习、安全多方计算、差分隐私等，可扩展，贡献者可接入新的FL、MPC或DP方法，运算时间是纯PyTorch的约46～70倍。

Tensorflow Federated是基于Google的Tensorflow平台的开源联邦学习框架。该方法使许多参与的客户端能够训练共享的机器学习模型，同时将其数据保存在本地。

除了使用户能够创建自己的算法外，Tensorflow Federated还允许用户在自己的模型和数据上模拟许多包含的联邦学习算法。

FATE是由Webank AI设计的开源框架，旨在为Federated AI生态系统提供安全的计算框架。它基于同态加密和多方计算（MPC）实现安全的计算协议。它支持联邦学习体系结构和各种机器学习算法的安全计算，包括逻辑回归、深度学习和迁移学习等。

今年，阿里达摩院智能计算实验室研发布了新型联邦学习框架Federated Scope，并开源，希望促进隐私保护计算在研究和生产中的广泛应用。

达摩院使用了事件驱动的编程范式来构建联邦学习，即将联邦学习看成是参与方之间收发消息的过程，通过定义消息类型以及处理消息的行为来描述联邦学习过程。

通过这一方式，Federated Scope实现了支持在丰富应用场景中进行大规模、高效率的联邦学习异步训练。

达摩院团队对Federated Scope训练模块进行抽象，使其不依赖特定的深度学习后端，能兼容PyTorch、Tensorflow等不同设备运行环境，大幅降低了联邦学习在科研与实际应用中的开发难度和成本。

为进一步适应不同应用场景，Federated Scope还集成了多种功能模块，包括自动调参、隐私保护、性能监控、端模型个性化等。

3.市场：解决ML规模化及成本等工程问题

市场研究机构KBV预言，全球联邦学习市场规模，预计到2028年达到1.987亿美元，在预测期间内将以11.1%的年复合成长率增长。

亚太地区的联邦学习市场在预测期间（2022-2028年）将见证11.7%的复合年增长率。中国市场在2021年按国家划分的亚太地区联邦学习市场占主导地位，并将在未来几年继续成为主导市场。

同样，中国的《网络安全法》和《民法通则》等相继颁布，规定互联网企业不得泄露、篡改或破坏其收集的个人数据，在与第三方进行数据传输时，必须确保提交的合同明确描述要交换的数据范围和数据保护义务。在不同程度上，这些法规的实施为人工智能的典型数据处理提出新的要求，同时也促进联邦学习等市场的发展。

而国内的市场研究机构认为，包括联邦学习在内的隐私计算将快速落地，服务企业智能应用发展。

与传统的机器学习领域不同，新兴的联邦学习并不是因技术研究的推进而产生的，而是在实际应用中为解决数据隐私的问题而产生。因其特殊性，专家普遍认为“该技术正在进行工程化验证其广泛使用的可行性，解决规模化及成本等工程问题”。

市场参与者遵循的主要策略是产品发布。根据KVB公司分析，微软和谷歌是联邦学习市场的先驱，英伟达（Nvidia）、IBM等公司是市场上的一些关键创新者，还包括英特尔、Cloudera、Edge Delta、DataFleets、Enveil和Secure AI Labs等参与者。

中国云服务商、AI企业和大数据企业如阿里云、腾讯云、第四范式等都进入隐私计算领域，其联邦学习平台正在扩大应用落地。

联邦学习市场增长的主要因素是应用和协作学习。

一是在众多应用中增强数据隐私。借助联邦学习，机器学习方法的提供方式正在不断发展。使用联邦学习，企业可以加强现有的算法并改进其AI应用，小公司也可以发展自己的AI应用。在医疗保健领域，联邦学习可以帮助医疗保健人员提供高质量的结果，同时加速药物开发，成为集中学习不足的一项补救措施。

二是实现不同用户之间的协作学习。联邦学习不是将数据保存在单台计算机或数据集市上，而是将数据存储在原始来源上，如智能手机、制造检测设备、其他终端设备以及随时随地训练的机器学习机，有助于在被发送到集中式服务器之前做出决策。

例如，联邦学习在金融部门被广泛用于债务风险评估。通常银行使用白名单流程根据客户的信用卡信息将客户排除在集中储备系统之外。风险评估变量，如税收和声誉，可以通过与其他金融机构和电子商务企业合作来使用。

但是市场制约因素是缺乏熟练的技术专业人员。由于训练有素的人员（尤其是IT专家）的稀缺，许多企业在将机器学习集成到现有工作流程中时遇到了障碍。由于联邦学习系统是一个新概念，因此人们很难掌握和执行它们。招聘和维护技术技能成为公司的主要关注点。

4.应用：面向实际场景的优化等亟待解决

在联邦学习的应用方面，一方面应用场景不断增多，如药物发现、风险管理、在线视觉对象检测、数据隐私和安全管理、工业物联网、增强现实/虚拟现实、购物体验个性化等。

另一方面，基于垂直行业，医疗保健和生命科学、BFSI、IT和电信、能源和公用事业、制造、汽车和运输、零售和电子商务等应用都开始应用联邦学习技术。

介绍几大典型应用场景。

政务数据交换。政务大数据蕴含着巨大的经济与社会价值，其开放与共享对于促进政府自身转型、社会需求获取模式转型、打造智慧城市以及产业经济转型都具有重要意义。

在政务数据开放共享的过程中，由于缺乏可信的数据资产权利确认方案，导致政府部门不愿意共享数据。因缺乏有效的隐私安全保护技术，数据共享后无法限制数据用途，导致数据滥用和隐私泄露等问题，政府部门共享数据意愿较低。

联邦学习可以与大数据开发组件集成，打破政府部门数据孤岛，实现跨部门、与社会数据等安全共享。除了提供“脱敏”、“审计”和“细粒度权限控制”等措施外，可以实现数据资源的定向使用，防范申请权限获批后的数据滥用或二次分发等行为导致的隐私泄露问题。

移动应用。联邦学习可用于从智能手机的数据池中构建用户行为模型，而不会泄露个人数据，如用于下一个单词预测、人脸检测、语音识别等。Google使用联邦学习来改进设备上的机器学习模型，例如Google Assistant中的“Hey Google”，允许用户发出语音命令。

医疗保健和健康保险行业。可以利用联邦学习，保护原始源中的敏感数据，可以通过从不同位置（如医院、电子健康记录数据库等）收集数据来诊断罕见疾病，从而提供更好的数据多样性。

自动驾驶汽车。为了正常运行，自动驾驶汽车可能需要更新的建筑、交通或行人行为模型。由于隐私问题和每个设备的连接受限，在这些情况下构建聚合模型可能具有挑战性。联邦学习方法可以训练模型，可以在尊重用户隐私的同时快速响应这些系统中的变化。联邦学习可以通过实时数据和预测提供更好、更安全的自动驾驶汽车体验。

制造行业预测性维护。制造公司可以使用联邦学习模型来开发设备的预测性维护模型。预测性维护可能会面临一些障碍，如客户不想共享其个人数据或从不同国家/站点导出数据问题。联邦学习可以通过使用本地数据集来处理这些挑战。

尽管联邦学习技术因工程而生，但由于其处于萌芽阶段，专家认为该领域缺少足够多的实际应用案例，且面向实际场景的优化等问题也亟待解决。

业界经常用“数据不动模型动”和“让数据可用不可见”来概括联邦学习的基本原理。在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，联邦学习这一新兴的人工智能基础技术，在多参与方或多计算结点之间可以开展高效率的机器学习，是一项值得期待的技术。

科技媒体·企业演化科学·战略托管综合体

本文作者系赵满满

寻求报道，以及对相关话题感兴趣，请评论区留言