他增强了Xie的自尊心:这是高度简化的,但仍然

- 编辑:澳门新葡澳京官方APP -

他增强了Xie的自尊心:这是高度简化的,但仍然

扩散生成的产生在建模复杂数据分布方面表现良好,但其结果通常与表示字段相关。通常,训练一个扩散模型的目的包括重建的回归术语(例如,倾向),但没有明确的正规化条款来开发学习的表示。这一代人的范式与对图像的识别范式显着不同 - 在过去的十年中,图像识别领域的主要主题和驱动力已成为研究的代表。在表征研究领域,经常使用监督研究来找出适合各种下游活动的一般表示。在这些方法中,PAG -AAAARAL的对比提供了一个概念,这是一个简单但有效的框架,用于从样本对中进行研究表示。在直觉上,这些方法鼓励simila之间的相互吸引力R样品对(正对)和在不同样品对之间相互排除(负对)。研究表明,通过比较学习,包括分类,发现和细分,可以有效地解决表征的表征。但是,没有人探讨本研究在生成模型中的有效性。鉴于在开发模型中研究代表的潜力,Xie Shengning团队建议是代表性一致性(REPA)。该方法可以使用准备就绪的预训练表示模型的能力。在发展的实践中,该程序鼓励内部代表和外部预先代表之间保持一致。有关REPA的更多信息,请阅读我们先前的报告:“模型培训方法一直是错误的!Xie Shengning:表示很重要。但是,这些现有的机会依赖于其他预训练,其他模型参数和AC限制外部数据。需要极简主义的方法。 https://arxiv.org/abs/2506.09027V1 The main idea of​​ ​​decentralized loss is actually very simple: in addition to the usual regular output loss from the model, a goal for internal representation of the Regularized model is introduced (Fig. 1) Loss of regression (Denaising) is naturally acting as a mechanism of resignation, thusExamples of pairs need to be defined as a study comparison.简而言之:分散损失的行为就像“比较没有积极例子的损失”。因此,与研究对比不同,它不需要双视图采样,专用数据增强或其他编码器。训练过程可以完全遵循基于扩散的模型中使用的标准技能(以及基于流的相应模型),唯一的区别是,它会增加正规化损失,而被忽视的开销。与REPA机制相比,这种新方法不需要预训练,不需要额外的MODEL参数,没有外部数据。通过其独立和极简主义的设计,该方法清楚地表明,对表征的研究也可以促进建模的发展,而无需依赖外部信息来源。新的数学分解损失方法的核心是通过鼓励在隐藏空间中的内部表示来分散生成模型的内部表示。在这里,扩散模型中回归的原始损失称为识别损失,新引入的正则化项称为损失的传播。如果x = {x_i}是由嘈杂图像x_i组成的数据批次,则数据批次的目的是:其中l_diff(x_i)是样本的标准传播,l_disp(x)是l_disp(x)是传播的传播,取决于整个批次,并且λ是其权重术语。实际上,团队不应用任何其他层层(例如,此方法具有其自己和极简主义。不会更改原始L_DIFF项的实现:它不会引入其他示例视图,也不会引入进一步的数据增强,并且当λ为零时,它只会减少基线扩散模型。之所以进行此设计,是因为引入了差异l_dispp(x)的损失,仅在同一输入中计算的中间表示中。开发该公式是合理的,因为Regressi Termon提供了预定的训练目标,从而消除了使用“正对”的需求。这与先前通过对齐方式对自我监督研究的研究相符,与超晶体相似,在该研究中,该案例的正术语被解释为目标比对,而负面案例术语则解释为正规化形式。通过消除对正对的需求,可以在任何标准批次的(独立)图像中确定损失项。概念,可以从任何现有对中删除积极示例扩散损失来自比率的损失。在这方面,“分散的损失”一词不是指特定的实现,而是出于鼓励实现权力下放的一般目的。下面描述了传播损失的变体。在自我监督的研究中,Infonce的散射变体是一种广泛使用且有效的变异差异。作为对案件的研究,团队建议将损失损失与Infonce损失一致。数学,令z_i = f(x_i)表示输入样本X_i的生成模型的中间表示,其中f表示用于计算中间表示的图层的子集。原始Infonce的原始损失可以解释为目标跨透明镜目标,鼓励正对之间的高相似性和负相对对之间的低相似性:它代表了一对阳性示例(例如,Additi获得的数据关于添加相同图像的),(z_i,z_j)表示包含对的阳性示例的任何样品和对成对的所有负示例(即i≠j)。 D表示各向异性的函数(例如,距离),τ是一种称为温度的超参数。 d的常见形式是余弦的负相似性:在公式(2)的对数中,分子仅涉及示例的正对,而分母包含批处理中的所有样本对。根据以前的一些研究,公式(2)可以重新编写 - 等于:其中第一项类似于目标回归,这会减少Z_I及其目标之间的距离。另一方面,第二项将鼓励任何一对(Z_I,Z_J)远至Maari。为了发展相应的传播损失,这里仅保留第二项:此公式也可以视为对比度的丧失(公式(3)),其中每个正对由两个Identica组成l视图,例如非常相似。方程(4)仅等于平行 - 不同的log(批量大小),并且该连续术语不会影响优化过程。概念,此损失的含义基于参考参考z_i。要获取在一批样本中指定的表格z = {z_i},可以根据以前的研究在此处重新定义:这种损失的损失具有所有批次样本的相同值,并且每批仅计算一次。在团队实验中,除了余弦各向异性外,我们还研究正方形距离:。当它脱落这种形式时,损失的传播只需几行代码即可轻松计算,如算法1所示。在公式(6)中指定的基于Infonce的基于基于Infonce的解剖的丢失类似于与以前在自我监督研究中的上述角色相似性的损失(尽管此处不调节表示表示)。在该论文中,对比表示的研究,将均匀性丧失应用于输出repre演说,应与失去对准的损失(即常规条款)配对。这里的新公式朝着另一个步骤,删除了中间表示中的作弊项​​目,因此仅关注正则化的视角。团队注意到,当j = i时,无需清楚地排除d(z_i,z_j)。由于批处理中没有使用许多同一图像的视图,因此该术语始终匹配类似和最小的差异水平,例如在Kosine的情况下为0和-1。因此,当批处理的大小足够大时,该术语在该对数方面的作用将充当恒定的偏差,其贡献将较小。实际上,无需排除此项目,这简化了实施。分散损失的其他变体损失的概念自然可以扩展为Infonce之外的疾病丧失类别。任何鼓励排除负面示例的目的都可以视为分散Lized目标并实例化为分散损失的变体。基于其他类型的损失损失,该团队还建立了另外两个变体。该表总结了所有三种变体,并不兼具比较和损失的比较的比较。在经典比较研究公式中失去铰链,损失的损失定义为独立损失条款的总和,每个项损失对应于正面或负面对示例。两对的阳性示例的术语丢失是,其中ε0是边界值。要产生分散的损失损失,您只需要丢弃丢失一对积极示例的术语,然后简单地计算失去负面示例的术语。参见表1第2行。这种损失的损失鼓励其他协方差矩阵靠近矩阵单位。例如,对于“ Barlow Twins:自学研究通过降低的自学研究)中指定的损失(计算归一化代表之间的相互协方差矩阵tions of two enhanced views in a batch), D × D mutual covariance is recorded as COV, and its elements indexed by (m, n) the element of the diagonal cov_mm is 1, and the term of loss to persuade the diagonalo (∀m ≠ n) to be 0, where the W is the weight the personality is regularized by ℓ₂, the diagonal element cov_mm is automatically equal to 1,因此,在表1中显示了不必清楚地处理错误损失错误的问题,并且所有传播的变体都比其相应的传播损失更简单。消除了增加多视图数据的需求。不必更改回归损失的实施。实际上,引入损失仅需要少量调整:指定应用正规器的中间层;计算该层的色散损失,并将其添加到原始的辨别损失中。算法2提供了训练的伪代码,其中包含Disce的特定形式该算法1中指定的损失。“我们认为这种缓解可以促进我们的方法的实际应用,这使其能够适用于各种正式模型,”该团队说。传播损失的实际表现如何?表2将不同的分散损失变体与相应的损失进行了比较。可以看出,在使用独立噪声时,在所有研究情况下,失去比较都无法提高发电质量。该团队猜测DA的AlignmentViews在噪声水平上具有巨大差异,这会损害学习。相比之下,扩散损失的性能总是比相应的损失更好,并且前者还可以防止双视图采样带来的复杂性。 Infonce具有ℓ₂距离在不同变体中表现最好。因此,在其他实验中,团队默认情况下使用基于ℓ₂的Infonce。此外,团队还研究不同模块OP的效果Tions和不同量的λ(对照正规化强度)和τ(Infonce温度)。有关详细信息,请参见原始论文。另外,无论是在DIT(变压器扩散)还是SIT(可扩展的插值变压器)中,在所有情况下,损耗的传播都比基线方法更好。值得注意的是,他们还注意到,当基线性能更强时,亲戚-Ana -ak正在改善,甚至完全改进也会更大。通常,这种趋势强烈表明,分散损失的主要作用在于正则化。由于更大和更多的模型更有可能被过度拟合,因此有效的正则化往往会受益。图5显示了SIT-XL/2模型生成的图像的一些示例。当然,团队还比较了新的REPA方法。新过程的规律性直接作用于模型的内部表示,因为REPA与外部模型的表示。因此,为了公平,Addi如表6所示,应同时考虑统计计算开销和信息的外部资源。repa取决于Dinov2本身的恢复前模型,从11B骨干网络网络中蒸馏而成,该网络培训了1.42亿个选定的图像。相反,新建议的方法根本不需要它们:不需要预训练,外部数据和其他模型参数。在扩展较大模型和数据集的培训时,新方法是适合的,在这种情况下,团队希望适当地调节。最后,新建议的方法可以基于一个步骤扩散直接概括生成模型。在表7(左)中,团队将分散的损失应用于最新的平均流模型,然后观察到稳定且持续的改进。表7(右)将这些结果转换为最新的一步扩散/基于流的模型,这表明ANG新方法改善了平均流程,并达到了新的方法索塔。