独家 | 如何防止AI在自拍中识别出你的脸-轻识

作者：Will Douglas Heaven

翻译：陈之炎

校对：欧阳锦

本文约1900字，建议阅读8分钟

现在，越来越多的工具可以用来防止面部识别系统对私人照片的训练。

标签：人脸识别

将个人照片上传到互联网似乎是件很轻松的事，那么问题来了，照片在互联网上发布之后，谁可以访问它们？如何处理它们？用哪些机器学习算法来训练它们？

Clearview公司已经为美国执法机构提供了一个面部识别工具，利用这个工具训练了公共网络上数百万张私人照片，这似乎只是一个开始。任何拥有基本编码技能的人都可以开发面部识别软件，这意味着从性骚扰、种族歧视、政治压迫和宗教迫害等多个角度来看，这项技术比以往任何时候都更有可能被滥用。

许多人工智能研究人员正在推动并开发可以让AI无法从个人数据中学习的方法。本周，最新的两项报告将在人工智能会议ICLR上发表。

芝加哥大学的艾米丽·温格说“我不喜欢人们从我这拿走不属于他们的东西，我想很多人也有类似的想法。” 去年夏天，温格和她的同事们开发出了最早的防AI工具。

数据中毒并不是件新鲜事。通过删除公司的数据，或者用伪示例污染数据集，从而使得公司更难训练出精确的机器学习模型。但这些努力通常需要采取集体行动，有数百万或成千上万的人参与，才能产生影响。而温格新技术的独到之处在于：可以通过一张人脸照片便能达到目的。

澳大利亚迪肯大学的丹尼尔·马说，“这项技术可以利用单个人的照片作为密钥来锁定数据，在人工智能时代，它是保护人们数字权利的新一线防御工具。”

隐匿于视野中

包括Fawkes在内，目前大多数工具都采用了同样的基本方法：对图像进行微小的改动，这些改动很难被人眼识别，但却能骗过人工智能，使得人工智能错误地识别出照片中的具体信息。这种技术非常接近于对抗性攻击，输入数据的微小变动会迫使深度学习模型犯大错。

给Fawkes输入一组自拍照，它就会给图像添加像素级的扰动，从而阻止最先进的面部识别系统识别照片中是谁。与先前的方法不同，它没有对图像做明显的改动。

温格和她的同事们在一些广泛使用的商业面部识别系统上测试了这一工具，包括亚马逊的AWS识别系统、微软的Azure和中国Megvii技术公司开发的Face++系统。在一个包含50张图像的数据集的小实验中，Fawkes对所有图像都100%有效，经过调整的人图像训练的模型无法在新图像中识别这些人的图像。篡改后的训练图像阻止了这些工具准确表达出人的表情。

Fawkes项目网站上已经有了近50万次的下载量。其中的一个用户还搭建了一个在线版本，使人们更容易使用（尽管温格不会对第三方使用代码做出保证，并警告说：“您并不知道处理数据时发生了什么。”）。温格说，目前还没有手机应用程序，但也无法阻止有人制作一个手机应用程序。

Fawkes会阻止一个新的面部识别系统识别你——下一个是Clearview。但它无法破坏在未保护图像上已经训练好的现有系统。然而，这项技术一直在不断改进。温格认为，由瓦莱里亚·切雷帕诺瓦和她在马里兰大学的同事们开发的一个工具，很可能会解决上述问题。

该工具名为LowKey，通过基于一种更强大的对抗性攻击，对图像应用扰动实现对Fawkes的扩展，骗过了预先训练好的商业模型。和Fawkes一样，也可以在网上找到LowKey。

马和他的同事们开发出了更为强大的工具，将图像变成所谓的无法学习的示例，有效地让人工智能完全忽略你的自拍。温格说：“我认为这个技术非常棒，Fawkes可以骗过人工智能模型，让训练得出错误的结果，而这个工具使得训练模型对你一无所知。”

图中上面三张照片是从网上下载的图片，将它们变成了下面三张无法学习的示例，面部识别系统忽略了它们的存在

与Fawkes不同的是，无法学习的示例并不是基于对抗性攻击。马的团队没有引入对图像的改变，迫使人工智能犯错误，而是增加了微小的变动，使得人工智能在训练过程中忽略掉它。当稍后显示图像时，它对图像中内容的评估并不比随机猜测出的结果要好多少。

实验证明，无法学习的示例比对抗性攻击更为有效，因为它们无法实现逆向训练。人工智能看到示例的对抗性越强，就越容易识别出它们，但是马和他的同事们从根本上便阻止了人工智能进行图像训练。

温格已经投入了一场正在进行的新战斗，她的团队最近注意到，微软Azure的面部识别服务不再被他们的某些图像所欺骗。她说：“对于我们生成的隐藏图像，它的鲁棒性突然变得非常强大。不知道其中发生了什么事。”

微软可能已经改变了算法，或者人工智能可能已经训练了足够多的Fawkes影像，已经学会了如何识别它们。无论如何，温格的团队上周发布了工具的更新版本，再次对抗Azure。“这是另一场猫鼠军备竞赛。”她说。

对温格来说，这是一个关于互联网的故事。她说：“像Clearview这样的公司正在利用免费获得的数据，做他们想做的事情。”

从长远来看，监管可能会有帮助，但这并不能阻止公司利用漏洞。她说：“法律上可以接受的东西和人们真正想要的东西之间总是会有脱节。像Fawkes这样的工具正是填补了这个空白。”

“让我们赋予大众一些他们以前没有的权力。” 温格说。

原文标题：

How to stop AI from recognizing your face in selfies

原文链接：

https://www.technologyreview.com/2021/05/05/1024613/stop-ai-recognizing-your-face-selfies-machine-learning-facial-recognition-clearview/

编辑：黄继彦

译者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师，现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。业余时间喜爱翻译创作，翻译作品主要有：IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等，其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组，希望能和大家一起交流分享，共同进步。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织