利用无标签数据的深度学习算法解析:自训练技术
深度模型需要大量训练样本,但标注数据难以获取。这推动了一项重要研究方向:利用更易获取的无标签数据。例如,可以通过网络爬取大量无标签图像数据,而像ImageNet这样的标注数据集则需要昂贵的标注过程。在近期的实证研究中,使用无标签数据训练的模型已开始接近全监督性能(例如,Chen等人,2020;Sohn等人,2020)。
本系列博客文章将讨论我们的理论工作,旨在分析近期使用无标签数据的实证方法。在这第一篇文章中,我们将分析自训练——一种对半监督学习和领域自适应极具影响力的算法范式。在第二部分中,我们将使用相关的理论思想分析自监督对比学习算法,这些算法在无监督表示学习中非常有效。
背景:自训练
我们将首先概述自训练算法的基本原理,这是本文的主要焦点。其核心思想是使用某个预存在的分类器(称为“伪标注器”)在大型无标签数据集上生成预测(称为“伪标签”),然后使用这些伪标签重新训练一个新模型。例如,在半监督学习中,伪标注器通过在小规模标注数据集上训练得到,然后用于在更大的无标签数据集上预测伪标签。接着,使用额外的正则化,从头开始重新训练一个新的分类器来拟合这些伪标签。在实践中,新分类器的准确率通常会超过原始伪标注器(Lee,2013)。自训练流程如下图所示。
令人惊讶的是,自训练在实践中效果显著,尽管我们是在对自己的预测(即伪标签)进行重新训练,而非真实标签。在本文的剩余部分,我们将分享理论分析,解释这一现象的原因,表明自训练中的重新训练相比原始伪标注器能够证明提高准确性。
我们的理论分析侧重于基于伪标签的自训练,但也存在其他变体。例如,熵最小化(本质上是使用分类器产生的变化伪标签进行训练,而非来自伪标注器的固定伪标签)也可以被解释为自训练。相关的分析技术也适用于这些算法(Cai等人,'21)。
正则化对自训练的重要性
在讨论我们理论的核心部分之前,我们首先通过演示重新训练阶段的正则化对于自训练有效工作是必要的来设定分析背景。
考虑上述自训练算法中的重新训练步骤。假设我们最小化交叉熵损失来拟合伪标签,深度网络通常如此。通过将伪标注器的预测缩放至无穷大,可以将未正则化的交叉熵损失降至零。如下图所示,这意味着重新训练步骤不会比伪标注器有任何改进,因为决策边界不会改变。这表明,如果自训练要在理论上证明优于伪标注器,我们的分析中可能需要包含正则化。
实证上,一种在重新训练后能带来显著改进的技术是鼓励分类器在相邻的样本对上具有一致的预测。我们将此类方法称为输入一致性正则化。在文献中,定义“相邻对”有多种方式,例如,在ℓ2距离上接近的样本(Miyato等人,2017;Shu等人,2018),或者是同一图像经过不同强数据增强得到的样本(Xie等人,2019;Berthelot等人,2019;Xie等人,2019;Sohn等人,2020)。强数据增强(对输入图像应用比传统监督学习更强的变换)对于自监督对比学习也非常有用,我们将在后续博客文章中进行分析。我们的理论分析考虑了一种受输入一致性正则化实证工作启发的正则化器。
理论分析的关键公式
从以上讨论可以清楚地看到,为了理解自训练为何有效,我们需要一种原则性的方式来思考自训练的正则化器。输入一致性正则化在实践中是有效的,但我们如何抽象它以使分析易于处理?此外,输入一致性正则化利用了数据的哪些特性才能有效?在下一节中,我们将介绍增强图,这是一个关键概念,可以清晰地解决这两个挑战。基于增强图,后续章节将正式介绍正则化器和对数据的假设。
总体数据上的增强图
我们引入了总体数据上的增强图,这一关键概念使我们能够形式化输入一致性正则化器,并激发了对数据分布的自然假设。
直观上,增强图是一个以数据点为顶点的图,其特性是语义上相似的数据点将通过边序列连接。我们将考虑下图所示的双分图,其顶点集包括所有自然图像以及由中图像增强版本构成的集合。如果是由通过对应用数据增强得到的,则图中存在一条(粉红色)边连接和。
如果我们将双分图坍缩到顶点集上得到图,分析会稍简单一些。的边以黑色显示,连接了在中共享一个共同邻居的顶点。自然图像是中邻居的充要条件是它们在中共享一个共同邻居。在我们下一篇关于自监督对比学习算法的文章中,我们还将考虑坍缩到上得到的图,其边在上图中以棕色显示。
为简化起见,我们只考虑未加权图,并专注于使用小的ℓ2有界噪声模糊图像的数据增强,尽管增强图可以基于任意类型的数据增强构建。上图显示了中相邻图像的示例,配对的彩色箭头指向它们在中的共同增强版本。请注意,通过跟随中的边,可以在两个相当不同的图像之间遍历一条路径,即使中的相邻图像非常相似且彼此间的ℓ2距离必须很小。需要强调的重要一点是,是总体数据上的图,而不仅仅是训练集——这种区别对于我们即将对做出的假设类型至关重要。
形式化正则化器
既然我们已经定义了增强图,让我们看看这个概念如何帮助我们构建分析。首先,增强图激发了以下对输入一致性正则化器的自然抽象:
$$R(F,x) = \mathbb{1}(F \text{ 在邻域 } N(x) \text{ 中的所有样本上预测相同类别}) \quad (1)$$
在这个定义中,邻域是所有使得和在中通过边连接的的集合。我们将分析的最终总体自训练目标是正则化器和拟合伪标签损失的总和,并与(Xie等人,2019;Sohn等人,2020)等实证成功的目标密切相关。
$$\mathbb{E}x[\mathbb{1}(F(x) \neq G(x))] + \lambda \mathbb{E}_x[R(F,x)] \quad (2)$$
数据假设
我们现在将进行一个思想实验,以了解正则化器为何有用,并在此过程中为我们的分析激发两个关键假设。让我们考虑一个理想化的情况,即分类器具有完美的输入一致性,也就是对所有都有。如果数据满足适当的结构,强制实现完美的输入一致性可能非常有利,如下图所示。
上图表明,如果狗类在中是连通的,强制完美的输入一致性将确保分类器对所有狗做出相同的预测。这是因为完美的输入一致性保证了相同的标签在狗样本的所有邻域中传播,最终覆盖整个类别。这有利于避免对错误伪标记的样本过拟合。
图4中数据分布有两个隐含属性确保了完美的输入一致性是有益的:1) 狗类在中是连通的;2) 狗类和猫类相距甚远。图5描绘了这些条件不成立时的失败案例,因此完美的输入一致性没有帮助。左图显示,如果狗类在中不连通,完美的输入一致性可能无法保证分类器在整个类别中预测相同的标签。右图显示,如果狗类和猫类过于接近,完美的输入一致性将意味着分类器无法区分这两个类别。
我们的主要假设(如下所述)是上述条件的自然形式化。
假设1(类内扩展): 增强图在类别内部具有良好的连通性。形式化地说,对于任何地面真实类别内的图像子集,对于某个,有。
上图说明了假设1。在假设1中,指的是的邻域,它包含以及中样本邻域的并集。我们将假设1称为“扩展”假设,因为它要求的邻域必须相对于本身的概率扩展一个常数因子。我们将系数称为扩展系数。直观地说,更大的意味着更好的连通性,因为每个集合拥有更大的邻域。相关的扩展概念过去曾在诸如谱图理论[2,3]、采样和混合时间[4]、组合优化[5]等领域被研究过,甚至在不同协同训练设置下的半监督学习中也曾被研究[1]。
假设2(类间分离): 类别之间存在分离:图中包含的不同类别之间的边非常有限。
在论文中,我们提供了满足扩展和分离的分布示例,并且相信它们是对真实数据的现实刻画。需要重申的一个关键点是,这些假设和图是针对总体数据定义的。实际上,让诸如扩展这样的属性在训练集上成立是不现实的。如果我们试图仅在训练样本上构建图,它将完全断开,因为绘制两个独立同分布样本且它们恰好是邻居(在ℓ2距离上定义)的概率在输入维度上是指数级小的。
主要理论结果
我们现在证明,满足低自训练损失(2)的模型将具有良好的分类准确性。我们的主要结果如下:
定理1(非正式): 存在一个输入一致性正则化强度的选择,使得如果伪标注器满足基线准确率水平,即,则总体目标(2)的最小化器将满足:
$$Error(\hat{F}) \leq \frac{2}{c-1} Error(G_{pl})$$
换句话说,在扩展和分离的假设下,自训练理论上能够产生比原始伪标注器更准确的分类器!定理1的一个主要优点是它不依赖于的参数化,特别是,当是深度网络时也成立。此外,在领域自适应设置中,我们不需要对源域和目标域之间的关系做任何假设,只要伪标注器达到基线准确率水平即可。先前对自训练的分析仅限于线性模型(例如,Kumar等人,2020;Chen等人,2020),或者假设领域偏移非常小的领域自适应设置(Kumar等人,2020)。
该界限的一个有趣特性是,它随着扩展假设中的系数增大而改进。回想一下,本质上是每个类别内增强图连通性的量化指标,更大的表示更好的连通性。直观上,连通性可以通过加强输入一致性正则化器的影响来改进界限。
改进图连通性的一种方法是使用更强的数据增强。事实上,这种方法在实证上非常有效:像FixMatch和Noisy Student这样的算法通过使用比标准监督学习更强地改变图像的数据增强,实现了最先进的半监督学习性能。定理1为强数据增强为何如此有帮助提供了一种解释:它导致更大的和更小的界限。然而,确实需要注意不要过度增加增强强度——使用过于强大的数据增强可能会导致我们的假设2(即地面真实类别是分离的)不再成立。
定理1的证明依赖于上一小节所传达的直觉。回想一下,目标是证明在伪标签上重新训练可以产生一个能够纠正伪标签中某些错误的分类器。分类器能够忽略一些不正确伪标签的原因是,输入一致性正则化项鼓励分类器在相邻样本上预测相同的标签。因此,我们可以期望正确伪标记的样本将其标签传播给错误伪标记的邻居,从而对这些邻居产生去噪效果。我们可以通过利用扩展假设(假设1)使这种直觉变得严谨。
定理1的主要结果和我们的假设是针对总体数据表述的,但将定理1转化为在有限训练集上优化(2)的准确性保证并不太难。关键观察是,即使我们只优化(2)的训练版本,由于泛化性,总体损失也会很小,这实际上足以达到定理1的准确性保证。
结论
在这篇博客文章中,我们讨论了为何在无标签数据上进行自训练理论上能提高准确性。我们在数据上构建了一个增强图,使得相近的样本通过边连接。我们假设同一类别中的两个样本可以通过图中的边序列连接。在此假设下,我们证明了通过正则化进行自训练,通过强制每个连通子图具有相同标签,能够提高伪标注器的准确性。一个局限性是,该分析仅在类别是细粒度的情况下有效,因此每个类别在增强图中形成自己的连通组件。然而,我们可以想象一些场景,其中一个大类别是由更小、稀疏连接的子类组成的联合体。在这些情况下,我们的假设可能不成立。我们后续关于对比学习的博客文章将展示如何处理这种情况。
本博客文章基于论文《Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data》。
附加参考文献
- Balcan MF, Blum A, Yang K. Co-training and expansion: Towards bridging theory and practice. Advances in neural information processing systems; 2005.
- Cheeger J. A lower bound for the smallest eigenvalue of the Laplacian. Problems in analysis; 2015.
- Chung FR, Graham FC. Spectral graph theory. American Mathematical Soc.; 1997.
- Kannan R, Lovász L, Simonovits M. Isoperimetric problems for convex bodies and a localization lemma. Discrete & Computational Geometry; 1995.
- Mohar B, Poljak S. Eigenvalues and the max-cut problem. Czechoslovak Mathematical Journal; 1990.
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码
