正则化 - 未注册的版本海平线,海平线工作室

登录

golden81

累计撰写 154 篇文章
累计收到 0 条评论

包含标签【正则化】的文章

2025-4-22
自训练与一致性正则化：半监督学习的混合匹配方法在机器学习领域，获取大量标注数据往往成本高昂且耗时。半监督学习作为一种解决方案，旨在同时利用有限的标注数据和大量的未标注数据进行模型训练。近年来，自训练、一致性正则化以及混合匹配等技术在半监督学习中取得了显著突破。本文将深入探讨这些方法的理论基础、实现机制及其在现代深度学习中的应用。自训练（Self-training）基本原理自训练是半监督学习中最直观的方法之一，遵循"教师-学生"模式。其核心思想是：首先使用有限的标注数据训练一个初始模型（教师模型）利用该模型对未标注数据进行预测，生成伪标签（pseudo-labels）选择预测置信度高的样本与原始标注数据一起，重新训练模型迭代上述过程，不断扩充"可信"的训练数据集自训练的成功关键在于伪标签的质量控制。如果模型对某些样本的错误预测被纳入训练集，可能导致错误累积，使模型性能下降。现代自训练技术现代自训练方法采用了多种改进策略：动态阈值：根据模型训练阶段动态调整选择伪标签的置信度阈值类别平衡：确保各类别的伪标签样本数量相对均衡多视角自训练：从不同的数据表示或模型架构获取多个独立的伪标签，通过集成减少错误一致性正则化（Consistency Regularization）理论基础一致性正则化基于平滑假设（Smoothness Assumption）：如果两个输入点在高密度区域相近，则它们的输出也应该相近。具体来说，对同一未标注样本施加不同的数据增强或扰动后，模型应该产生一致的预测结果。数学表达一致性正则化可以表示为最小化以下损失函数： $$\mathcal{L}{cons} = \mathbb{E}{x \in \mathcal{D}_u, \eta, \eta'} \left[ d(f(x, \eta), f(x, \eta')) \right]$$ 其中： $\mathcal{D}_u$ 表示未标注数据集 $\eta, \eta'$ 表示不同的随机扰动或增强 $f(x, \eta)$ 表示模型对扰动后样本的预测 $d(\cdot, \cdot)$ 表示某种距离度量（如均方误差或KL散度）代表性方法几种经典的一致性正则化方法包括： Π模型：对同一样本进行两次前向传播，两次使用不同的数据增强和随机丢弃（dropout）时序集成（Temporal Ensembling）：维护模型在不同训练阶段对同一样本预测的指数移动平均平均教师（Mean Teacher）：维护一个教师模型，其参数是学生模型参数的指数移动平均混合匹配（MixMatch）方法概述混合匹配是一种将自训练、一致性正则化和数据增强有机结合的半监督学习算法，由Google Research于2019年提出。它创新地将多种有效的半监督学习思想整合到一个统一的框架中。核心步骤 MixMatch对于每个小批次的标注数据和未标注数据执行以下操作：增强与标签猜测：对每个未标注样本生成K个增强版本模型对这K个版本进行预测，并平均结果对平均预测应用温度锐化（temperature sharpening）以提高置信度 **混合操作（MixUp）**：将标注数据和带伪标签的未标注数据合并成一个池对每个样本，随机选择另一个样本进行线性插值，创建新样本同时对其标签/伪标签进行相同比例的插值联合训练目标：对标注数据使用标准交叉熵损失对未标注数据使用均方误差损失（伪标签作为目标）总损失为两部分的加权和数学表达 MixMatch的总体损失函数可表示为： $$\mathcal{L} = \mathcal{L}_x + \lambda \mathcal{L}_u$$ 其中： $\mathcal{L}_x$ 是标注数据的监督损失 $\mathcal{L}_u$ 是未标注数据的一致性损失 $\lambda$ 是平衡两种损失的权重系数技术比较与融合应用方法对比方法优势局限性自训练实现简单，适用性广易受错误伪标签影响，存在确认偏差一致性正则化不依赖伪标签质量，理论基础扎实可能需要大量未标注数据，超参数敏感混合匹配融合多种技术优势，性能突出计算成本较高，实现复杂实际应用中的融合策略在实际应用中，这些方法常常结合使用以取得更好效果：渐进式训练：先使用一致性正则化建立稳定模型，再引入自训练扩展标签空间混合匹配变体：如FixMatch，简化了混合匹配流程，结合强弱数据增强与伪标签技术预训练与微调：首先使用自监督学习进行预训练，再应用这些半监督方法微调
- 2025年-4月-22日
- 431 阅读
- 0 评论
人工智能