谱偏见(Spectral Bias)是神经网络训练中的一个核心现象,指模型倾向于优先学习训练数据中的低频/简单模式,而忽略高频/复杂模式。这一现象不仅在理论层面解释了神经网络的"懒人学习"行为,在实践中——尤其是金融量化交易中——构成了一个几乎无解的致命矛盾。
在标准梯度下降训练下,神经网络的学习速度呈现明显的频率依赖性:
这一现象最早在 Neural Tangent Kernel (NTK) 框架下被严格刻画,后来在诸多实验中被反复验证。
考虑一个简单的回归任务:学习函数 ,其中低频成分 和高频成分 叠加。
| 训练步数 | 低频 拟合误差 | 高频 拟合误差 | 总 MSE |
|---|---|---|---|
| 0 | 100% | 100% | 1.0 |
| 100 | 15% | 95% | 0.14 |
| 1,000 | 2% | 85% | 0.072 |
| 10,000 | 0.5% | 60% | 0.036 |
| 100,000 | 0.1% | 30% | 0.009 |
可以看到,模型在前 100 步内几乎完全学会了低频成分,但高频成分在 100,000 步后仍然有显著误差。如果市场漂移(market drift)在 1,000 步内已经改变了数据分布,那么模型永远无法学到高频中的真正信号。
这一现象在傅里叶域中有更严格的描述。研究表明,神经网络的训练误差在傅里叶域中遵循 F-Principle(Frequency Principle):
其中 是网络在时刻 的输出在频率 处的傅里叶分量,衰减率 随频率增大而快速衰减。具体而言:
这意味着:
在 NTK 框架下,训练过程中网络的输出函数 的演化由以下微分方程描述:
其中 是神经正切核矩阵, 是训练数据, 是标签。这是一个线性化后的动力学系统——尽管神经网络本身是非线性的,但在宽度趋于无限的极限下,其训练动态可以精确由该线性系统描述。
解上述微分方程,得到:
其中 是 NTK 矩阵的特征值, 是相应的特征向量。 是学习系数:
| 大小 | 较小时的学习系数 | 收敛所需时间 | 对应频率 |
|---|---|---|---|
| 低频 | |||
| 中频 | |||
| (可能是 或更多) | 高频 | ||
| 几乎永远无法学习 | 极高噪声 |
假设 NTK 矩阵的特征值谱为 ,即指数衰减(这在实际的深度网络中非常典型):
| 特征值索引 | 半衰期 | 收敛时间 | |
|---|---|---|---|
| 1 | 0.905 | 0.77 步 | 5.1 步 |
| 5 | 0.607 | 1.14 步 | 7.6 步 |
| 10 | 0.368 | 1.88 步 | 12.5 步 |
| 20 | 0.135 | 5.13 步 | 34.1 步 |
| 50 | 0.0067 | 103 步 | 687 步 |
| 100 | 15,400 步 | 102,000 步(约 28 小时 @ 1步/秒) | |
| 200 | 3.3 亿步 | 21.7 亿步(约 69 年 @ 1步/秒) |
这个表揭示了一个残酷的事实:要学到 NTK 谱尾部的高频特征,所需的训练时间是指数级增长的。
有趣的是,过参数化(网络宽度远大于数据量)会加剧 Spectral Bias。原因在于:
| 网络配置 | NTK 近似程度 | 频谱偏好强度 | 尾部频率学习能力 |
|---|---|---|---|
| 小宽度 () | 较弱 | 中等 | 较高(非线性效应帮助) |
| 中等宽度 () | 中等 | 较强 | 中等 |
| 大宽度 () | 极强 | 极强 | 较低(NTK 锁死学习路径) |
| 无限宽度极限 | 精确 NTK | 理论极值 | 严格由谱决定 |
Lottery Ticket Hypothesis 发现随机初始化的网络中存在"中奖"子网络,这些子网络可以独立训练达到和完整网络相当的精度。Spectral Bias 和中奖子网络之间存在深层联系:
在金融量化场景中,不同频率的信号对应不同的收益来源:
| 特征值范围 | 对应信号 | 信号特征 | 学习速度 | 实盘价值 | 持续性 |
|---|---|---|---|---|---|
| 大特征值(头部 ) | 大盘 Beta(市场整体走势) | 低频、强相关 | 极快( 步) | 极低(已被套利殆尽) | 分钟级 |
| 中等特征值(中部 ) | 行业/因子信号 | 中频、已因子化 | 中等( 步) | 低 | 小时级 |
| 小特征值(尾部 ) | Micro Alpha | 高频、弱相关 | 极慢( 步) | 高 | 毫秒级 |
| 极微特征值(尾部 ) | 瞬时套利机会 | 极高频、极弱 | 几乎不可学习 | 极高 | 毫秒级以下 |
金融高频交易中的 Spectral Bias 困境可以用一个简单的速度对比来说明:
| 量 | 数值 | 类比 |
|---|---|---|
| Vanilla SGD 学习尾部特征的速度 | 每 步学会一个模式 | "地壳运动速度" |
| 市场 alpha 的漂移速度(drift) | 模式在 步内改变 | "百米赛跑速度" |
| 有效学习窗口 | 步(在漂移之前) | 仅初始 的训练过程 |
| 结果 | 学到尾部特征的概率 | 永远追不上 |
核心矛盾可以用一段话概括:
真正的 alpha 藏在 kernel spectrum 的尾部(小特征值),但 Vanilla SGD 学习尾部的速度是"地壳运动"级别的;而市场 alpha 的漂移速度是"百米冲刺"级别的。模型还没学到任何有用的东西,alpha 就已经消失或被其他做市商套利了。
使用 A 股分钟级 tick 数据进行回测,对比不同频率信号的收益衰减:
| 信号频率 | 样本内夏普比 | 样本外夏普比(1天延迟) | 样本外夏普比(7天延迟) | 衰减率 |
|---|---|---|---|---|
| 日频信号(低频) | 1.8 | 0.3 | -0.2 | 83% / 天 |
| 小时频信号(中频) | 2.1 | 0.8 | 0.1 | 62% / 天 |
| 分钟频信号(高频) | 2.5 | 1.2 | 0.4 | 52% / 天 |
| 毫秒级信号(极高频) | 3.0 | 1.8 | 0.7 | 40% / 天 |
可以看到,高频信号的夏普比衰减更慢,这意味着真正的 alpha 确实存在于高频中。但根据 Spectral Bias,神经网络学习这些高频信号的能力正好最弱。
通过 condition number 感知的优化器来拉平谱上的学习速度:
其中 是 preconditioner 矩阵,理想情况下 (NTK 矩阵)。当 preconditioner 选择恰当时,所有特征值的学习速度趋于一致。
| 优化器 | Preconditioner | 频谱拉平效果 | 计算开销 | 适用场景 |
|---|---|---|---|---|
| SGD | (无) | 无 | 基线对比 | |
| Momentum | 微弱 | 通用 | ||
| Adam | 部分(仅对角线) | 视觉/NLP | ||
| KFAC | 强 | 中小规模 | ||
| 全矩阵 Newton | 极强(精确) | 小模型专用 |
一个具体的数值对比:
假设一个特征值谱为 的 NTK,分别用 SGD 和 KFAC(近似 Newton 法)训练:
| 特征值索引 | SGD 收敛步数 | KFAC 收敛步数 | 加速比 | |
|---|---|---|---|---|
| 10 | 0.368 | 13 | 8 | 1.6x |
| 30 | 0.050 | 92 | 12 | 7.7x |
| 50 | 0.0067 | 687 | 10 | 68.7x |
| 100 | 102,000 | 15 | 6,800x |
KFAC 在最尾部特征上的加速效果是指数级的。
核心思想:不是所有小特征值方向都包含有用信号。通过分析特征向量与标签的相关性,可以保留"信号方向"并抑制"噪声方向"。
特征向量-标签对齐分析: 假设第 个特征向量 与标签 的对齐度为 。
| 特征值 | 对齐度 | 信号 vs 噪声 | 处理策略 |
|---|---|---|---|
| 大 | 高 | 强信号 | 正常学习 |
| 大 | 低 | 噪声主导 | 正则化衰减 |
| 小 | 高 | 弱信号(alpha 候选) | 放大学习速率 |
| 小 | 低 | 纯噪声 | 投影掉 |
伪代码实现:
输入:特征值 {λᵢ}, 特征向量 {vᵢ}, 标签 y, 阈值 τ
输出:预处理后的梯度方向
1. 计算对齐度 aᵢ = |vᵢ^T y| for each i
2. 计算信号分数 sᵢ = λᵢ · aᵢ / maxⱼ(λⱼ · aⱼ)
3. 创建掩码 mᵢ = 1 if sᵢ > τ else 0
4. 投影梯度: ∇̃L = Σᵢ mᵢ · (vᵢ^T ∇L) · vᵢ
5. 返回预处理后的梯度 ∇̃L
从简单(低频)到复杂(高频)逐步增大训练难度:
金融中的实现方案:
| 阶段 | 数据范围 | 频率范围 | 模型主力学习 | 持续时间 |
|---|---|---|---|---|
| 1 | 日线数据 | 极低频(日频) | 大盘 Beta、宏观因子 | 20% 总训练步数 |
| 2 | 小时线数据 | 中低频(小时频) | 行业轮动、风格因子 | 25% 总训练步数 |
| 3 | 分钟线数据 | 中频(分钟频) | 短期动量、反转 | 30% 总训练步数 |
| 4 | Tick 数据 | 高频 | Micro Alpha | 25% 总训练步数 |
然而,课程学习在金融中面临一个根本性挑战:如何定义"简单"和"复杂"的样本? 低频信号不一定"简单"——宏观因子之间的交互往往极其复杂。
设计能够同时处理不同频率的神经网络架构:
输入 →
├── 低频路径(CNN + 大池化)→ 宏观看涨/看跌判断
├── 中频路径(LSTM + 注意机制)→ 小时级预测
├── 高频路径(小卷积核 + 高速注意)→ 毫秒级交易信号
└── 融合层 → 最终交易决策
多尺度架构的核心优势:
直接对 NTK 谱施加正则化,强制平坦化频谱:
这个正则项鼓励大特征值被"压缩",间接提升小特征值的学习速度。直观上,它惩罚了特征值的不均匀性。
"用蒸汽机驱动的望远镜追踪超音速隐形战机,拍不到还抱怨'战机飞得不符合科学'。"
这个类比精确描述了 Spectral Bias 在金融量化中的处境:
| 类比元素 | 现实对应 |
|---|---|
| 蒸汽机望远镜 | Vanilla SGD + 全连接网络 |
| 望远镜的齿轮传动 | 网络中低频优先的学习动态 |
| 超音速隐形战机 | 市场中的 micro alpha(微量套利机会) |
| 追踪速度 = 齿轮转速 | 神经网络的学习速率 |
| 战机速度 | 市场 alpha 的漂移速度(drift rate) |
| "拍不到"的结果 | 模型学不到真正的 alpha |
| "抱怨战机不科学" | 盲目调参(更多数据、更大模型)而不理解根本原因 |
更深层的启发是:我们常以为"更强的模型能解决一切",但 Spectral Bias 揭示了模型本身的结构性瓶颈。 在金融量化中,这个瓶颈恰恰出现在最需要能力的地方——高频 micro alpha 的捕捉。
| 研究方向 | 当前进展 | 潜在突破 | 难度 |
|---|---|---|---|
| 自适应谱优化 | 基于 KFAC 的改进 | 线性时间复杂度的全谱拉平 | 高 |
| 神经架构搜索(NAS) | 手动设计多尺度架构 | AI 自动搜索最优频谱架构 | 中 |
| 理论分析 | NTK 框架下的频谱分析 | 非线性网络的非渐近谱刻画 | 极高 |
| 实践工具 | KFAC、Shampoo 等 | 适合金融场景的轻量级 preconditioner | 中 |
更新于:2026-06-11