时序 Transformer(Temporal Transformer)是 Transformer 架构在时间序列数据上的应用变体,专门用于建模序列数据的时序依赖关系。
标准 Transformer 的自注意力机制:
Attention(Q,K,V)=softmax(dkQKT)V
时序 Transformer 的关键改进:
- 位置编码:显式编码时间信息
- 因果掩码:确保只关注过去信息(防止信息泄露)
- 时间感知注意力:考虑时间间隔的注意力权重
PE(pos,2i)=sin(100002i/dmodelpos)
PE(pos,2i+1)=cos(100002i/dmodelpos)
PE=Embedding(pos)
RoPE(x,m)=x⋅eimθ
更适合长序列建模。
将实际时间戳(年/月/日/时/分)编码为向量:
TimeEmbed(t)=Embedyear(ty)+Embedmonth(tm)+Embedhour(th)
输入:历史价格序列 {p1,p2,…,pT}
输出:未来价格或收益率预测
输入:多个市场变量的联合序列
X=p1(1)p2(1)⋮pT(1)p1(2)p2(2)⋮pT(2)⋯⋯⋱⋯p1(M)p2(M)⋮pT(M)
结合新闻、财报等事件的时间戳:
Attention(Q,K,V,T)=softmax(dkQKT+f(T))V
其中 f(T) 编码时间间隔信息。
自注意力复杂度:O(T2⋅d)
对于高频数据(毫秒级),序列长度 T 极大,计算成本高昂。
金融市场存在长期依赖(如季节性、周期),但标准 Transformer 难以捕捉。
解决方案:
- Longformer:稀疏注意力
- Reformer:LSH 注意力
- Informer:ProbSparse 注意力
金融时间序列的统计特性随时间变化(Regime Shift),Transformer 需要在线适应。
| 维度 |
标准 Transformer(NLP) |
时序 Transformer(金融) |
| 序列长度 |
512-2048 tokens |
104-106 时间步 |
| 位置编码 |
正弦/可学习 |
时间戳/相对时间 |
| 掩码 |
因果掩码 |
因果 + 时间窗口 |
| 数据特性 |
离散、符号化 |
连续、噪声大 |
| 非平稳性 |
低 |
高(Regime Shift) |
| 计算优化 |
标准 |
稀疏注意力、在线计算 |
创建于:2026-06-11
*来源:栀染《量化交易的深度学习困境》