写在前面

近日博主发现2024、2025年,社区中涌现了一大批做Looping Network的工作(包括但不限于做数独、做迷宫、做路径规划。。。),一直想探索Looping在语言类任务的效果。最近又看到马里兰大学的研究,把Skipping和Looping结合到一起用MCST(蒙特卡洛搜索树)做最优的探索,居然在语言类的常规任务上取得了很好的提升(我之前自己做Looping在这些任务都是掉点的/可能是没做什么Continuous Training和别的)。于是想好好研究一下Looping背后的机制和原理,期望能带来某些insights。

现代神经网络的三种信息处理范式

形式化表述 举例 说明
Y=f(X)\mathbf{Y} = f(\mathbf{X}) MLP, CNN, Decoder-only Transformer 无状态(stateless)映射:一次性输入 → 输出
(Z,Y)=f(Z,X)(\mathbf{Z,Y}) = f(\mathbf{Z,X}) RNN 有状态(stateful)动态系统:每步输入与历史状态共同决定输出与新状态
Z=f(Z,X),Y=g(Z)\mathbf{Z} = f(\mathbf{Z,X}), \mathbf{Y}=g(\mathbf{Z}) Deep Equilibrium Model (DEQ), Neural ODE, hierarchical reasoning model(HRM), tiny recursive model(TRM) 分离状态更新与读出(state transition + readout):内部状态自演化,输出从状态读出

表格中Z\mathbf{Z}被称为implicitly-defined layers (详见 NeurIPS 2024: Understanding Representation of Deep Equilibrium Models from Neural Collapse Perspective)。

Neural Collapse (神经[网络表征]坍缩, NC\mathcal{NC})

当模型处于训练的最终阶段 (terminal phase of training, TPT),或更准确地说,达到零训练误差时,最后一层的特征的类内均值和分类头的向量收敛到平衡数据集上的单纯形等角紧框架 (Equiangular Tight Frame, ETF) 的顶点。

Simplex Equiangular Tight Frame: 一组处于某个n维空间的K个点的集合 S:siRD,i=1,2,...,K\mathbf{S}: s_i \in \mathbb{R}^D, i = {1,2,...,K} 被称为单纯形等角紧框架如果满足:

S=αKK1P(IK1K1K1K),α0S = \alpha \sqrt{\frac{K}{K-1}}\mathbf{P}(\mathbf{I}_K-\frac{1}{K} \mathbf{1}_K \mathbf{1}_K^{\intercal}), \alpha \neq 0

IKRK×K\mathbf{I}_K \in \mathbb{R}^{K \times K}是单位矩阵,1K\mathbf{1}_K是纯1向量,PRD×K,(DK)\mathbf{P} \in \mathbb{R}^{D \times K}, (D \geq K) 是部分正交矩阵,使得 PP=I\mathbf{P}^\intercal \mathbf{P} = \mathbf{I}.

NC\mathcal{NC}的四个属性:

  1. 方差坍缩(Variance Collapse):类内特征(即最后一层的feature map)收敛为唯一向量hkˉ\bar{h_k},即对于同一个标签类中kk的任意样本ii,通过训练过程,其特征hk,ih_{k,i} 满足hk,ihkˉ0||h_{k,i} - \bar{h_k}|| \to 0
  2. 收敛于单纯形等角紧框架(Convergence to Single ETF):每个类的最佳特征的平均值(即hkˉ\bar{h_k})折叠到单纯形 ETF 的顶点。
  3. 收敛于自对偶(Convergence to Self-duality):在训练收敛后,分类器学到的权重方向和数据特征本身的类别中心方向是一致的,即WW=HH\frac{\mathbf{W}}{||\mathbf{W}||} = \frac{\mathbf{H}}{||\mathbf{H}||}. (自对偶意味着:这两个原本不同视角的问题,在深度网络训练后会收敛到同一个解.)
  4. 最近邻原则(Nearest Neighbor):分类器根据特征向量和分类器权重之间的欧几里得距离来确定类别。