作者:栀染(知乎)
核心主题:深度学习在金融量化中的系统性误用,以及 spectrally-aware 优化的技术路径
老板花一百万美金 package,从 Anthropic 或 OpenAI 挖来顶尖 PhD。这位天才不负众望,写了上万行极其华丽的 PyTorch 代码,整了一个融合了 temporal transformer 和强化学习的超级深度学习架构。他用标准的 AdamW 优化器,在 A100 集群上烧了十万刀的 credit。
模型高调上线。由于这个 model 实在是太聪明、太非线性了,它在实盘里敏锐地捕捉到了 limit order book 里零点几毫秒的微观噪音。它极度兴奋,在开盘前十分钟疯狂交易了五万次。下午收盘一算:
| 项目 | 金额 |
|---|---|
| paper alpha 收益 | +$2,000,000 |
| 交易手续费 + slippage | -$3,000,000 |
| 净亏损 | -$1,000,000 |
clearing house 乐开了花,你的 LP 当晚就给老板发了律师函。
这时候,慌得要死的 PM 会一脚把这个 PhD 踹开,转头对旁边那个拿着低保 base salary、每天在工位上摸鱼的 associate QR 说:
"去,给老子整一个 ridge regression,只要做一件事:long apple,short tesla,然后根据历史 volatility 简单做个 vol-scale。"
这个连 10 行 Python 都不用的简单模型上线了。刚好赶上那周 tech sector 暴涨,模型躺赚了 5%。于是,老板在季度 PPT 里写上:
「我们利用先进的主动机器学习算法成功捕获了市场结构性红利」
naive 的养老金 LP 们看完了 PPT 惊为天人,当场决定追加十个亿的 allocation。
年底,这位写 ridge regression 的 lazy QR 拿到了两百万刀的 bonus,开开心心去 Courchevel 坐直升机滑雪了。
"这就是为什么大家还在用简单模型。它们之所以 useful,不是因为它们正确,而是因为在这个充满随机性的草台班子市场里,它们刚好足够简单,简单到连犯错都显得那么平庸且安全。"
但传统常识在 quant 里往往是个彻头彻尾的错误。
不是 data 的问题,是很多人用 weak model 思维糟蹋 DL。把 LLM/CV 那套 Adam/SGD 直接搬到金融数据,完全不带脑子。
在极低信噪比(SNR)环境下,梯度协方差矩阵的主导方向根本不指向真正的 predictive signal,而是完美指向对噪音最敏感的方向。
结论:标准 SGD 训练出来的 DL 模型 = "极其精密的、以最快速度定位并撞向 market noise 的自杀式导弹"
经典 NTK 存在谱偏见。Vanilla SGD 学习不同特征的速度严重失衡:
| 特征类型 | 学习速度 | 类比 |
|---|---|---|
| 简单 beta 特征(大特征值) | 极快 | 蒸汽机驱动的望远镜 |
| 真正微观 alpha 特征(spectral tail,小特征值) | 每年一毫米 | 追踪目标 |
| 市场 drift 速度 | 时速一百公里 | 超音速隐形战机 |
类比:用蒸汽机驱动的望远镜追踪超音速隐形战机,拍不到还抱怨"战机飞得不符合科学"。
市场里的真正 alpha,那些极短周期的非线性组合套利机会,在数学上全部缩在 kernel spectrum 那个微小的尾部。
参考工作:NS-NTK(Neural Scaling - Neural Tangent Kernel)
不是放弃深度学习,而是做 spectrally-aware 优化:
| 挑战 | 原因 | 解决方案 |
|---|---|---|
| 计算成本 | 精确计算 对于大规模网络不可行 | 对角近似、随机近似 |
| 在线估计 | 市场 regime shift 导致最优 时变 | 指数移动平均更新 |
| 噪声鲁棒性 | 梯度噪声影响 preconditioner 估计 | 投影掉噪声方向 |
| 交易成本 | 高频策略 slippage 可能超过 alpha | 交易频率约束、成本-收益平衡 |
线性模型或者树模型,在结构上就是个瞎子。它们唯一能看见的,是那些巨大特征值对应的平滑信号——也就是 macro beta。
"用 ridge regression 去做量化,就像一个瞎子在通过用手摸画布的粗糙度来欣赏莫奈。他偶尔能猜对这幅画很大,但他永远看不到真正的景观。它们能赚钱,纯粹是因为画布正好在往他倒地的方向倾斜。一旦市场微观结构发生 regime shift,瞎子连怎么骨折的都不知道。"
"大家假装 George Box 的'所有模型都是错的'是真理,在 happy hour 互相吹捧,写自我感动的科普。"
常见谬论:
"金融数据 99% 全是噪音,猫有耳朵但股票没有,所以复杂模型注定要死,ridge regression 才是唯一救赎"
| 维度 | 简单模型 | 深度学习(正确用法) |
|---|---|---|
| 能看到什么 | macro beta(大特征值) | micro alpha(spectral tail) |
| 学习速度 | 快但片面 | 需 spectrally-aware 优化才能均衡 |
| 对 regime shift | 瞎子骨折 | 能感知微观结构变化 |
| 职业安全 | 犯错平庸安全 | 黑天鹅=被开除 |
| 实盘表现 | 靠运气+包装 | 需正确优化+控制 slippage |
核心结论:
深度学习在金融量化中不是不行,而是被错误的方法论(Vanilla SGD + 弱模型思维)糟蹋了。真正的 alpha 藏在 kernel spectrum 的尾部,需要 spectrally-aware 优化才能触及。简单模型能赢不是因为正确,而是因为"在这个充满随机性的草台班子市场里,它们刚好足够简单,简单到连犯错都显得那么平庸且安全"。
| 组件 | 推荐方案 | 替代方案 |
|---|---|---|
| 深度学习框架 | PyTorch | JAX |
| 优化器 | 自定义 Spectrally-Aware SGD | AdamW + 手动调整学习率 |
| 矩阵运算 | GEMM 优化(cuBLAS/rocBLAS) | 自定义 CUDA kernel |
| 数据管道 | Apache Arrow + Parquet | HDF5 |
| 回测引擎 | 自研(考虑 slippage 模型) | Backtrader(仅限原型) |
| 监控 | Prometheus + Grafana | 自研 |
| 陷阱 | 表现 | 后果 |
|---|---|---|
| 忽视 SNR | 直接使用原始价格数据 | 模型学习噪声 |
| 标准 SGD | 使用 AdamW 默认参数 | spectral bias,忽略尾部 alpha |
| 忽略 slippage | 回测假设完美执行 | paper alpha 正,实盘亏损 |
| 过度交易 | 高频信号导致频繁交易 | 手续费吃掉收益 |
| regime 假设 | 假设市场结构不变 | regime shift 导致模型失效 |
原文作者:栀染(知乎)
整理日期:2026-06-11
优化版本:v2.0(基于 wiki_optimizer_v2 扩展)