梯度下降 | Hugo Knowledge Base

¶ 梯度下降

¶ 核心思想：沿最陡的方向下山

¶ 数学形式化

¶ 三种主要变体

¶ 学习率：最重要的超参数

¶ 梯度下降的挑战与局限性

¶ 动量法（Momentum）

¶ 自适应学习率方法

¶ 收敛性分析

¶ 训练速度与批大小

¶ 学习率调度策略

¶ 梯度下降在深度学习中的应用演变

¶ 梯度裁剪（Gradient Clipping）

¶ 实践经验总结

¶ 相关概念

¶ 参考文献