梯度会泄漏训练数据?MIT新方法从梯度窃取训练

梯度沟通是现代多机练习常用的通讯办法。长期以来,人们以为梯度是能够安全同享的,即练习数据不会因梯度沟通而走漏。可是 MIT 的一项研讨标明,隐私的练习数据能够经过同享的梯度来获取。

研讨人员将此命名为 深度梯度走漏 ,并在计算机视觉和自然言语处理使命进步行了验证。试验成果标明,他们的进犯比曾经的办法要强大得多, 在各种数据集和使命上,DLG 只需几个梯度进程即可彻底康复练习数据 。关于图画,他们的办法能够完成 像素等级 的康复;关于文本,能够到达 词条等级 的匹配。

该论文现已被 NeurIPS 2019 承受。研讨者期望经过这篇作业引起咱们的警觉并重新考虑梯度的安全性。他们还在论文中评论了避免这种深度走漏的几种或许战略, 其间最有用的防护办法是梯度紧缩 。

网站:https://dlg.mit.edu

论文:https://arxiv.org/abs/1906.08935

此外,他们还将在 NeurIPS 2019 大会上介绍这项作业。

在协同学习 和联邦学习 中,每个用户的数据一直储存在本地,仅有模型的梯度在不同设备之前传达。这类算法不需求将数据会集到一处,能够在维护用户隐私的一起,也让模型从海量数据中获益。例如多家医院能够一起练习一个医疗模型而无需同享患者的医疗数据。

可是,「梯度同享」计划是否真的能够维护参与者的私家数据?在大多数状况下,人们以为梯度是能够安全同享的:因为数值方式的梯度并没有直接包括有意义的练习数据。最近的一些研讨指出,梯度提醒了练习数据的某些特点。在这篇文章中,研讨者考虑了一个更具应战性的事例: 咱们能够从梯度中盗取完好练习数据吗? 传统观念以为答案是否定的,但 MIT 的研讨标明这实际上是可行的。

与之前研讨中的弱进犯比较, 这种深度梯度走漏是第一次被评论 并给现有的多节点机器学习体系带来了应战。如果是带参数服务器的练习, 中心服务器能够盗取一切参与者的隐私数据。 关于无参数服务器的练习,状况乃至更糟,因为 任何参与者都能够盗取其相邻节点的练习数据 。研讨者在视觉和言语使命上的验证了进犯的有用性。在各种数据集和使命上,DLG 只需几个梯度进程即可彻底康复练习数据。

在这项作业中,研讨者提出深度梯度走漏算法:揭露的梯度会走漏个人的隐私数据。他们提出了一种优化算法,只需几回迭代即可从梯度中取得练习输入和标签。

为了进行进犯,研讨者首要随机生成一对「虚拟的」输入和标签,然后履行一般的前向传达和反向传达。从虚拟数据导出虚拟梯度之后,他们没有像传统优化那样更新模型权重,而是更新虚拟输入和标签,以最大程度地减小虚拟梯度和实在梯度之间的差异。当进犯完毕后,私家数据便彻底暴露了出来。值得注意的是,整个进程不需求练习数据集的任何额定信息。

上图中的 ||∇w’ – ∇w|| 关于虚拟数据和标签可导,因而能够运用规范梯度下降办法来优化。请注意,此优化需求二阶导数。因而假定模型是两次可微。这适用于大多数现代机器学习模型和使命。完成该算法并不难,只需挑选的渠道支撑二阶导数即可。此处,研讨者挑选 PyTorch 作为试验渠道,并供给一个仅需 20 行代码的完成

研讨者在常用的图片分类使命和言语模型上测试了该深度走漏的作用。在图片分类使命上,他们观察到具有洁净布景的单色图画最简单康复,而像人脸这样的杂乱图画则需求更多的迭代来康复。优化完成后,虽然有一些可见的噪声点,但康复成果根本与原始数据相同。

在视觉上,他们比较了其他走漏算法与 DLG。从前办法 根据 GAN 模型。在 SVHN 上,虽然走漏的成果还可模糊识别出是数字「9」,但这已不是原始练习图画。LFW 的状况更糟,CIFAR 上则彻底失利。DLG 展示的走漏程度远远强于以往的「浅」走漏算法。

在言语模型上,研讨者选用最近盛行的 BERT 模型作为试验渠道。不同于图画模型的接连输入,言语模型的文字输入往往是离散的。因而他们将 DLG 应用在词条上,在复原出词条之后再去反向揣度原句的构成。他们从 NeurIPS 主页上选取了三句话作为试验目标。

与视觉使命类似,他们从随机初始化的嵌入开端:迭代0 处的反向查询成果毫无意义。在优化进程中,虚拟词条发生的梯度逐步向原始词条发生的梯度挨近。在之后的迭代中,部分原句中的单词逐步呈现。在下表的例 3 中,在第 20 轮迭代中,呈现了「annual conference」,在第 30 轮迭代中,得到了与原始文本十分类似的语句。虽然有少部分因为分词自身歧义引起的不匹配,可是原始练习数据的主要内容现已彻底走漏。

深度梯度走漏的进犯程度是之前从未评论过的。因而,MIT 的研讨者也测试了几种防护的办法。

他们们首要试验了梯度扰动并测验了高斯噪声和拉普拉斯噪声。如下图所示,防护并不是很抱负:只需在噪声大到使准确率下降时,该战略才能够成功防护深度梯度走漏。

他们也测试了低精度梯度关于深度梯度走漏的防护作用。惋惜的是两种常用单精度格局都不能阻挠走漏。8-bit 数据虽然能阻挠该走漏,可是模型的功能却也显着下降。在多种测验后,他们发现最有用的防护办法是梯度紧缩,只需稀少性大于 20% 即可成功防护。DGC的研讨标明能够在梯度的稀少性到达 99% 以上时,仍旧练习出功能附近的模型。因而,紧缩梯度是一种对立深度梯度走漏的有用手法。

他们将在 NeurIPS 2019 大会上介绍这项作业,Poster Session 将在温哥华当地时间 5pm 到 7pm 在 East Exhibition Hall B C 154 号展位进行,欢迎感兴趣的教师、同学、工业界搭档前去沟通。

时间

2020-09-24 07:00


栏目

互联网 养老


作者

admin


分享