线性代数(Linear Algebra)是数学的基础分支之一,研究向量空间(线性空间)及在这些空间上的线性变换。它通过矩阵、向量、行列式和特征值等工具来建模和求解线性问题,是现代科学和工程中不可或缺的数学语言。
线性代数的思想可追溯到古代文明。中国《九章算术》(约公元前200年)中已有求解线性方程组的矩阵方法——"方程术",即增广矩阵的行变换,本质上就是高斯消元法的雏形。这是人类最早的线性代数计算实践之一。
现代线性代数的发展经历了以下关键里程碑:
17世纪 :德国数学家莱布尼茨和日本数学家关孝和独立发展了行列式理论。莱布尼茨在与洛必达的通信中阐述了行列式的概念和基本性质。
18世纪 :瑞士数学家克莱姆(Gabriel Cramer)在其著作《代数曲线分析导论》(1750年)中提出了用行列式求解线性方程组的"克莱姆法则"。同时期,高斯发展了系统的消元法来求解天文观测中遇到的最小二乘问题。
19世纪 :这是线性代数最关键的成长期。英国数学家凯莱(Arthur Cayley)在1858年首先定义了矩阵的乘法运算,创立了矩阵论。德国数学家格拉斯曼(Hermann Grassmann)在《线性扩张论》(1844年)中提出了n维向量空间的概念。西尔维斯特(James Joseph Sylvester)引入了"矩阵"(Matrix)这个术语和对偶相关的概念。弗罗贝尼乌斯(Ferdinand Georg Frobenius)发展了特征值和矩阵多项式理论。
20世纪 :冯·诺依曼将线性代数引入量子力学框架——希尔伯特空间理论。随着计算机的发明,线性代数从纯数学工具变成了数值计算的核心。豪斯霍尔德(Alston Scott Householder)和威尔金森(James H. Wilkinson)奠定了数值线性代数的基础。LAPACK、BLAS 等基础线性代数库成为科学计算的标准。
21世纪 :深度学习革命使线性代数的应用达到前所未有的规模。现代 GPU 每秒执行数万亿次矩阵运算,支撑着百亿参数的大语言模型的训练。线性代数的每一次突破都与计算能力的飞跃相互促进。
向量 (Vector)是线性代数中最基本的对象。一个 n 维向量可以视为有序的 n 元数组:
v = [ v 1 v 2 v n ] \mathbf{v} = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix}
v = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ v 1 v 2 ⋮ v n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
向量的本质是同时具有方向 和大小 的量。在二维或三维几何中,向量可以形象地表示为从原点出发的有向线段。但线性代数中的向量可以抽象得多——函数、多项式、甚至连续的音频信号都可以被视为向量,只要它们满足向量的运算规则。
向量空间 (Vector Space,也称线性空间)定义为一个非空集合 V VV ,其元素称为向量,并定义两种运算——加法与标量乘法,满足以下公理:
公理
数学表达
加法封闭性
u + v ∈ V \mathbf{u} + \mathbf{v} \in Vu + v ∈ V
加法交换律
u + v = v + u \mathbf{u} + \mathbf{v} = \mathbf{v} + \mathbf{u}u + v = v + u
加法结合律
( u + v ) + w = u + ( v + w ) (\mathbf{u} + \mathbf{v}) + \mathbf{w} = \mathbf{u} + (\mathbf{v} + \mathbf{w})( u + v ) + w = u + ( v + w )
零元存在
存在 0 ∈ V \mathbf{0} \in V0 ∈ V ,使 v + 0 = v \mathbf{v} + \mathbf{0} = \mathbf{v}v + 0 = v
负元存在
对每个 v \mathbf{v}v ,存在 − v -\mathbf{v}− v 使 v + ( − v ) = 0 \mathbf{v} + (-\mathbf{v}) = \mathbf{0}v + ( − v ) = 0
标量乘法封闭性
c v ∈ V c\mathbf{v} \in Vc v ∈ V
标量乘法分配律
c ( u + v ) = c u + c v c(\mathbf{u} + \mathbf{v}) = c\mathbf{u} + c\mathbf{v}c ( u + v ) = c u + c v
标量加法的分配律
( c + d ) v = c v + d v (c + d)\mathbf{v} = c\mathbf{v} + d\mathbf{v}( c + d ) v = c v + d v
标量乘法的结合律
c ( d v ) = ( c d ) v c(d\mathbf{v}) = (cd)\mathbf{v}c ( d v ) = ( c d ) v
单位元
1 v = v 1\mathbf{v} = \mathbf{v}1 v = v
最常见的向量空间是 R n \mathbb{R}^nR n (n 维欧几里得空间),但多项式集合 P n P_nP n 、矩阵空间 R m × n \mathbb{R}^{m \times n}R m × n 、连续函数空间 C [ a , b ] C[a,b]C [ a , b ] 也都构成向量空间。
子空间 (Subspace)是向量空间的子集,并且自身在同样的加法和标量乘法下构成向量空间。判断一个子集是否为子空间只需检验三点:零向量在其中、加法封闭、标量乘法封闭。典型的子空间例子包括:通过原点的直线或平面、零空间(A x = 0 A\mathbf{x} = \mathbf{0}A x = 0 的解空间)、列空间(由 A AA 的列张成的空间)、行空间。
基与维数 :向量空间的一组基 (Basis)是线性无关且能张成整个空间的向量集合。基中向量的个数称为空间的维数 (Dimension)。R n \mathbb{R}^nR n 的标准基是 { e 1 , e 2 , … , e n } \{\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n\}{ e 1 , e 2 , … , e n } ,其中 e i \mathbf{e}_ie i 的第 i 分量为 1,其余为 0。空间 R n \mathbb{R}^nR n 的维数是 n。维数是向量空间最重要的不变量之一——两个有限维向量空间同构当且仅当它们的维数相等。
线性相关与线性无关 :一组向量 { v 1 , v 2 , … , v k } \{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}{ v 1 , v 2 , … , v k } ,若存在不全为零的标量 c 1 , c 2 , … , c k c_1, c_2, \ldots, c_kc 1 , c 2 , … , c k 使得 ∑ c i v i = 0 \sum c_i \mathbf{v}_i = \mathbf{0}∑ c i v i = 0 ,则称这组向量线性相关 ;否则称线性无关 。线性相关意味着至少有一个向量可以表示为其他向量的线性组合——这对理解矩阵的秩、方程组的解结构至关重要。
张成空间(Span) :一组向量的所有线性组合构成的子空间。s p a n { v 1 , … , v k } = { ∑ i = 1 k c i v i ∣ c i ∈ R } {\rm span}\{\mathbf{v}_1, \ldots, \mathbf{v}_k\} = \{ \sum_{i=1}^k c_i \mathbf{v}_i \mid c_i \in \mathbb{R} \}s p a n { v 1 , … , v k } = { ∑ i = 1 k c i v i ∣ c i ∈ R } 。
矩阵 (Matrix)是按照行和列排列的数字(或更一般的环元素)的矩形阵列:
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋱ a m 1 a m 2 ⋯ a m n ] A = \begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{bmatrix}A = ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ a 1 1 a 2 1 ⋮ a m 1 a 1 2 a 2 2 ⋮ a m 2 ⋯ ⋯ ⋱ ⋯ a 1 n a 2 n ⋮ a m n ⎦ ⎥ ⎥ ⎥ ⎥ ⎤
一个 m × n m \times nm × n 矩阵有 m 行和 n 列。矩阵 A AA 的第 i 行第 j 列元素记作 a i j a_{ij}a i j 或 A i j A_{ij}A i j 。
矩阵可以从三个不同的视角来理解,每个视角对应不同的应用场景:
线性变换的表示 :矩阵 A AA 定义了从 R n \mathbb{R}^nR n 到 R m \mathbb{R}^mR m 的映射 x ↦ A x \mathbf{x} \mapsto A\mathbf{x}x ↦ A x ,将输入向量变换为输出向量。
线性方程组的紧凑表示 :m mm 个方程、n nn 个未知数的线性系统可以写作 A x = b A\mathbf{x} = \mathbf{b}A x = b 。
数据的表格 :在数据科学中,每行代表一个样本(观测),每列代表一个特征(变量)。
常见矩阵类型 :
类型
定义
性质
方阵
行数 = 列数(m = n m = nm = n )
可讨论行列式、可逆性和特征值
对角矩阵
i ≠ j i \neq ji = j 时 a i j = 0 a_{ij} = 0a i j = 0
计算简便,A k A^kA k 只需将对角元取 k 次幂
标量矩阵
对角元全相等的对角矩阵
对应"缩放"变换
单位矩阵
对角元全为 1 的对角矩阵(记作 I II )
矩阵乘法的单位元:I A = A I = A IA = AI = AI A = A I = A
上三角矩阵
i > j i > ji > j 时 a i j = 0 a_{ij} = 0a i j = 0
高斯消元的结果,行列式等于对角元之积
下三角矩阵
i < j i < ji < j 时 a i j = 0 a_{ij} = 0a i j = 0
LU 分解的 L 因子
对称矩阵
A T = A A^T = AA T = A
特征值全为实数,可正交对角化
反对称矩阵
A T = − A A^T = -AA T = − A
主对角线全为零
正交矩阵
A T A = A A T = I A^T A = AA^T = IA T A = A A T = I
保持长度和角度,∥ A x ∥ = ∥ x ∥ \|A\mathbf{x}\| = \|\mathbf{x}\|∥ A x ∥ = ∥ x ∥
正定矩阵
x T A x > 0 \mathbf{x}^T A\mathbf{x} > 0x T A x > 0 (对所有 x ≠ 0 \mathbf{x} \neq \mathbf{0}x = 0 )
所有特征值 > 0,可进行 Cholesky 分解
稀疏矩阵
大部分元素为零
大规模科学计算的常见形式(有限元、图分析)
幂零矩阵
存在 k kk 使 A k = 0 A^k = 0A k = 0
严格上三角矩阵是幂零矩阵
矩阵的运算 :
加法 :对应位置元素相加,需同型
标量乘法 :每个元素乘以标量
矩阵乘法 :( A B ) i j = ∑ k A i k B k j (AB)_{ij} = \sum_k A_{ik} B_{kj}( A B ) i j = ∑ k A i k B k j ,需 A AA 的列数等于 B BB 的行数
转置 :( A T ) i j = A j i (A^T)_{ij} = A_{ji}( A T ) i j = A j i
逆 :若 A − 1 A = A A − 1 = I A^{-1}A = AA^{-1} = IA − 1 A = A A − 1 = I ,称 A AA 可逆(非奇异)
迹 :tr ( A ) = ∑ i A i i \text{tr}(A) = \sum_i A_{ii}tr ( A ) = ∑ i A i i ,即对角元之和
矩阵乘法不满足交换律——A B ≠ B A AB \neq BAA B = B A 一般而言,这是线性代数初学者最容易忽视的地方。
线性变换 (Linear Transformation)是从向量空间 V VV 到 W WW 的映射 T : V → W T: V \to WT : V → W ,满足以下两条性质:
T ( u + v ) = T ( u ) + T ( v ) (可加性) T(\mathbf{u} + \mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v}) \quad \text{(可加性)}
T ( u + v ) = T ( u ) + T ( v ) (可加性)
T ( c v ) = c T ( v ) (齐次性) T(c\mathbf{v}) = cT(\mathbf{v}) \quad \text{(齐次性)}
T ( c v ) = c T ( v ) (齐次性)
这两个条件可以合二为一:T ( c u + v ) = c T ( u ) + T ( v ) T(c\mathbf{u} + \mathbf{v}) = cT(\mathbf{u}) + T(\mathbf{v})T ( c u + v ) = c T ( u ) + T ( v ) 。
线性变换与矩阵之间的对应是线性代数的核心思想之一:每个线性变换(在选定基下)都有唯一的矩阵表示;每个矩阵都定义了一个线性变换 。具体来说,若 V VV 的基为 { v 1 , … , v n } \{\mathbf{v}_1, \ldots, \mathbf{v}_n\}{ v 1 , … , v n } ,W WW 的基为 { w 1 , … , w m } \{\mathbf{w}_1, \ldots, \mathbf{w}_m\}{ w 1 , … , w m } ,则 T TT 的矩阵 A AA 的第 j 列就是 T ( v j ) T(\mathbf{v}_j)T ( v j ) 在 W WW 的基下的坐标向量。选择不同的基会得到不同的矩阵,但它们之间是相似关系:B = P − 1 A P B = P^{-1}APB = P − 1 A P 。
基础而又重要的线性变换示例:
恒等变换 :I ( v ) = v I(\mathbf{v}) = \mathbf{v}I ( v ) = v
零变换 :0 ( v ) = 0 0(\mathbf{v}) = \mathbf{0}0 ( v ) = 0
旋转 :在 R 2 \mathbb{R}^2R 2 中逆时针旋转 θ \thetaθ 角度:R θ = [ cos θ − sin θ sin θ cos θ ] R_\theta = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}
R θ = [ cos θ sin θ − sin θ cos θ ]
缩放 :S = [ s 1 0 0 s 2 ] S = \begin{bmatrix} s_1 & 0 \\ 0 & s_2 \end{bmatrix}
S = [ s 1 0 0 s 2 ]
剪切 (水平剪切):H = [ 1 k 0 1 ] H = \begin{bmatrix} 1 & k \\ 0 & 1 \end{bmatrix}
H = [ 1 0 k 1 ]
投影 (投影到 x 轴):P x = [ 1 0 0 0 ] P_x = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}
P x = [ 1 0 0 0 ]
反射 (关于 y 轴反射):F_y = \beginbmatrix -1 0 \\ 0 1 \endbmatrix$
秩-零化度定理 (Rank-Nullity Theorem)是线性代数中最基本的定理之一:
dim ( ker ( T ) ) + dim ( i m ( T ) ) = dim ( V ) \dim(\ker(T)) + \dim({\rm im}(T)) = \dim(V)
dim ( ker ( T ) ) + dim ( i m ( T ) ) = dim ( V )
其中 dim ( i m ( T ) ) \dim({\rm im}(T))dim ( i m ( T ) ) 称为 T TT 的秩 (Rank),dim ( ker ( T ) ) \dim(\ker(T))dim ( ker ( T ) ) 称为零化度 (Nullity)。这一定理直观地告诉我们:变换将一部分维度"压缩"到零(核),另一部分维度用于"生成"像空间,两者之和等于原空间的维度。
线性方程组是线性代数最古老、最直接的应用。由 m 个方程、n 个未知数组成的线性系统:
A x = b A\mathbf{x} = \mathbf{b}
A x = b
其中 A AA 是 m × n m \times nm × n 系数矩阵,x \mathbf{x}x 是未知向量,b \mathbf{b}b 是常数向量。
解的存在性与唯一性 完全由矩阵的秩决定:
条件 解的情况
----------------
rank(A) = rank([Ab]) = n 唯一解
rank(A) = rank([Ab]) < n 无穷多解(自由变量个数 = n − rank(A))
rank(A) < rank([Ab]) 无解
求解方法 :
高斯消元法 (Gaussian Elimination):通过初等行变换将增广矩阵 [ A ∣ b ] [A|\mathbf{b}][ A ∣ b ] 化为行阶梯形,再回代求解。时间复杂度 O ( n 3 ) O(n^3)O ( n 3 ) 。这是最常用的直接法。
高斯-若尔当消元法 :进一步将矩阵行化简为 RREF(简化行阶梯形),可以直接读出解,无需回代。计算量略大于基本高斯消元,在教学和理论分析中常见。
LU 分解 :将 A AA 分解为下三角矩阵 L LL 和上三角矩阵 U UU 的乘积 A = L U A = LUA = L U 。一旦完成分解,求解 A x = b A\mathbf{x} = \mathbf{b}A x = b 只需两步:先解 L y = b L\mathbf{y} = \mathbf{b}L y = b (前代),再解 U x = y U\mathbf{x} = \mathbf{y}U x = y (回代)。对于多右端项(如 b 1 , b 2 , … , b k \mathbf{b}_1, \mathbf{b}_2, \ldots, \mathbf{b}_kb 1 , b 2 , … , b k )的情况尤其高效。
克拉默法则 :用行列式求解 x i = det ( A i ) / det ( A ) x_i = \det(A_i) / \det(A)x i = det ( A i ) / det ( A ) 。计算量 O ( n ! ) O(n!)O ( n ! ) 或 O ( n 3 ⋅ n ) O(n^3 \cdot n)O ( n 3 ⋅ n ) ,仅适用于理论推导和小规模(n ≤ 3 n \leq 3n ≤ 3 )问题。
迭代法 :对于大规模稀疏系统(如偏微分方程离散化后的系统),直接法不可行。雅可比迭代、高斯-赛德尔迭代、共轭梯度法(CG)等迭代法以逐次逼近的方式求解。
最小二乘解 :当 A x = b A\mathbf{x} = \mathbf{b}A x = b 无解时(超定系统),往往寻求最小化残差 ∥ A x − b ∥ 2 \|A\mathbf{x} - \mathbf{b}\|^2∥ A x − b ∥ 2 的解,即正规方程 A T A x = A T b A^T A \mathbf{x} = A^T \mathbf{b}A T A x = A T b 的解。这是线性回归的核心数学基础。
行列式 (Determinant)是一个将方阵映射到标量的函数 det : R n × n → R \det: \mathbb{R}^{n \times n} \to \mathbb{R}det : R n × n → R (或 C n × n → C \mathbb{C}^{n \times n} \to \mathbb{C}C n × n → C )。它是线性代数中最具几何直观的概念之一。
几何意义 :
∣ det ( A ) ∣ = 单位立方体经过线性变换 A 后的体积(n 维体积) |\det(A)| = \text{单位立方体经过线性变换 } A \text{ 后的体积(n 维体积)}
∣ det ( A ) ∣ = 单位立方体经过线性变换 A 后的体积( n 维体积)
det ( A ) > 0 \det(A) > 0det ( A ) > 0 :变换保持定向(右手系不变)
det ( A ) < 0 \det(A) < 0det ( A ) < 0 :变换翻转了定向(如反射)
det ( A ) = 0 \det(A) = 0det ( A ) = 0 :变换将空间压缩到了更低维度(矩阵奇异,不可逆)
计算公式 :
2 × 2 2 \times 22 × 2 :det [ a b c d ] = a d − b c \det\begin{bmatrix} a & b \\ c & d \end{bmatrix} = ad - bcdet [ a c b d ] = a d − b c
3 × 3 3 \times 33 × 3 (Sarrus法则):det [ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ] = a 11 a 22 a 33 + a 12 a 23 a 31 + a 13 a 21 a 32 − a 13 a 22 a 31 − a 11 a 23 a 32 − a 12 a 21 a 33 \det\begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{bmatrix} = a_{11}a_{22}a_{33} + a_{12}a_{23}a_{31} + a_{13}a_{21}a_{32} - a_{13}a_{22}a_{31} - a_{11}a_{23}a_{32} - a_{12}a_{21}a_{33}det ⎣ ⎢ ⎡ a 1 1 a 2 1 a 3 1 a 1 2 a 2 2 a 3 2 a 1 3 a 2 3 a 3 3 ⎦ ⎥ ⎤ = a 1 1 a 2 2 a 3 3 + a 1 2 a 2 3 a 3 1 + a 1 3 a 2 1 a 3 2 − a 1 3 a 2 2 a 3 1 − a 1 1 a 2 3 a 3 2 − a 1 2 a 2 1 a 3 3
n × n n \times nn × n :拉普拉斯展开按某行(列)递归计算,或利用行化简化为上三角矩阵再将对角元相乘
行列式的基本性质 :
操作 对行列式的影响
--------------------
两行交换 变号(× ( − 1 ) \times (-1)× ( − 1 ) )
某行乘以 c cc × c \times c× c
某行的倍数加到另一行 不变
转置 不变:det ( A T ) = det ( A ) \det(A^T) = \det(A)det ( A T ) = det ( A )
矩阵乘法 det ( A B ) = det ( A ) det ( B ) \det(AB) = \det(A)\det(B)det ( A B ) = det ( A ) det ( B )
矩阵可逆 det ( A ) ≠ 0 \det(A) \neq 0det ( A ) = 0
逆矩阵 det ( A − 1 ) = 1 / det ( A ) \det(A^{-1}) = 1/\det(A)det ( A − 1 ) = 1 / det ( A )
相似矩阵 行列式相等
行列式除了判断可逆性外还有很多应用:计算特征多项式的系数、克莱姆法则、雅可比变换的缩放因子(多重积分变量替换中的雅可比行列式)。
特征值 (Eigenvalue)和特征向量 (Eigenvector)是线性代数中最深刻、最能体现"通过变换理解不变性"的概念。对于方阵 A AA ,若存在非零向量 v \mathbf{v}v 和标量 λ \lambdaλ ,使得:
A v = λ v A\mathbf{v} = \lambda\mathbf{v}
A v = λ v
则 λ \lambdaλ 称为 A AA 的一个特征值 ,v \mathbf{v}v 称为对应的特征向量 。特征向量的方向在线性变换 A AA 的作用下保持不变 (或只改变长度和朝向),缩放倍数就是特征值。
寻找特征值 :移项得 A v − λ v = 0 A\mathbf{v} - \lambda\mathbf{v} = \mathbf{0}A v − λ v = 0 ,即 ( A − λ I ) v = 0 (A - \lambda I)\mathbf{v} = \mathbf{0}( A − λ I ) v = 0 。非零解存在的条件是 ( A − λ I ) (A - \lambda I)( A − λ I ) 的行列式为 0:
det ( A − λ I ) = 0 \det(A - \lambda I) = 0
det ( A − λ I ) = 0
这个方程称为特征方程 ,是关于 λ \lambdaλ 的 n 次多项式,称为特征多项式 。它的根就是特征值。
谱 (Spectrum):矩阵所有特征值的集合称为谱,记作 σ ( A ) \sigma(A)σ ( A ) 。谱半径 ρ ( A ) = max { ∣ λ ∣ ∣ λ ∈ σ ( A ) } \rho(A) = \max\{|\lambda| \mid \lambda \in \sigma(A)\}ρ ( A ) = max { ∣ λ ∣ ∣ λ ∈ σ ( A ) } 是矩阵分析中的重要量。
关键定理 :
n × n n \times nn × n 矩阵恰好有 n 个特征值(计入代数重数,包含复数)
tr ( A ) = ∑ i = 1 n λ i \text{tr}(A) = \sum_{i=1}^n \lambda_itr ( A ) = ∑ i = 1 n λ i (迹等于特征值之和)
det ( A ) = ∏ i = 1 n λ i \det(A) = \prod_{i=1}^n \lambda_idet ( A ) = ∏ i = 1 n λ i (行列式等于特征值之积)
实对称矩阵的特征值全为实数,且存在一组标准正交的特征向量
正定矩阵的所有特征值 > 0 > 0> 0
对幂零矩阵,所有特征值 = 0 = 0= 0
若 λ \lambdaλ 是 A AA 的特征值,则 f ( λ ) f(\lambda)f ( λ ) 是 f ( A ) f(A)f ( A ) 的特征值(谱映射定理)
代数重数与几何重数 :特征值 λ \lambdaλ 作为特征多项式的根的重数称为代数重数 ;n u l l i t y ( A − λ I ) {\rm nullity}(A - \lambda I)n u l l i t y ( A − λ I ) (即 λ \lambdaλ 对应的特征空间维数)称为几何重数 。矩阵可对角化当且仅当每个特征值的代数重数等于几何重数。
特征值的应用领域 :
PageRank 算法:Google 计算互联网链接矩阵的主特征向量(对应特征值 1)来确定网页排名。这是特征向量最著名的工业应用之一。
主成分分析(PCA):对数据的协方差矩阵做特征分解,取前 k 个最大特征值对应的特征向量作为主成分方向,实现降维。
谱聚类:构造数据点相似度图的拉普拉斯矩阵,利用其第二小特征值(Fiedler 值)对应的特征向量进行聚类分割。
振动分析:结构的固有频率是特征值的平方根,模态形状是对应的特征向量。桥梁和摩天大楼的设计必须避免共振——特征值计算直接决定了建筑的抗震安全。
动力系统稳定分析:线性系统 x ˙ = A x \dot{\mathbf{x}} = A\mathbf{x}x ˙ = A x 的稳定性完全由 A AA 的特征值决定——所有特征值的实部为负时系统稳定。
量子力学中的本征值问题:H ^ ψ = E ψ \hat{H}\psi = E\psiH ^ ψ = E ψ ,其中算符 H ^ \hat{H}H ^ 的特征值 E EE 就是可观测的能级。
内积 (Inner Product)是向量空间中定义"长度"和"角度"的运算。欧几里得空间 R n \mathbb{R}^nR n 的标准内积(点积)定义为:
⟨ u , v ⟩ = u ⋅ v = ∑ i = 1 n u i v i = u T v \langle \mathbf{u}, \mathbf{v} \rangle = \mathbf{u} \cdot \mathbf{v} = \sum_{i=1}^n u_i v_i = \mathbf{u}^T \mathbf{v}
⟨ u , v ⟩ = u ⋅ v = i = 1 ∑ n u i v i = u T v
内积必须满足:对称性、双线性、正定性(⟨ v , v ⟩ ≥ 0 \langle \mathbf{v}, \mathbf{v} \rangle \geq 0⟨ v , v ⟩ ≥ 0 ,等号当且仅当 v = 0 \mathbf{v} = \mathbf{0}v = 0 时成立)。
范数(长度) :∥ v ∥ = ⟨ v , v ⟩ \|\mathbf{v}\| = \sqrt{\langle \mathbf{v}, \mathbf{v} \rangle}∥ v ∥ = ⟨ v , v ⟩
正交 :若 ⟨ u , v ⟩ = 0 \langle \mathbf{u}, \mathbf{v} \rangle = 0⟨ u , v ⟩ = 0 ,则称 u \mathbf{u}u 与 v \mathbf{v}v 正交(垂直)。
柯西-施瓦茨不等式 :∣ ⟨ u , v ⟩ ∣ ≤ ∥ u ∥ ∥ v ∥ |\langle \mathbf{u}, \mathbf{v} \rangle| \leq \|\mathbf{u}\|\|\mathbf{v}\|∣ ⟨ u , v ⟩ ∣ ≤ ∥ u ∥ ∥ v ∥ ,等号当且仅当 u \mathbf{u}u 与 v \mathbf{v}v 共线。这一定理保证了两个向量夹角的余弦值 ∣ cos θ ∣ ≤ 1 |\cos\theta| \leq 1∣ cos θ ∣ ≤ 1 。
正交补 :子空间 S SS 的正交补 S ⊥ S^\perpS ⊥ 是 S SS 中所有向量正交的向量集合。R n \mathbb{R}^nR n 中,n u l l ( A ) {\rm null}(A)n u l l ( A ) 是 r o w ( A ) {\rm row}(A)r o w ( A ) 的正交补,n u l l ( A T ) {\rm null}(A^T)n u l l ( A T ) 是 c o l ( A ) {\rm col}(A)c o l ( A ) 的正交补。这是理解线性方程组的"四大子空间"理论的基石。
格拉姆-施密特正交化 (Gram-Schmidt Process):从一组线性无关的向量 { v 1 , … , v k } \{\mathbf{v}_1, \ldots, \mathbf{v}_k\}{ v 1 , … , v k } 构造标准正交基 { q 1 , … , q k } \{\mathbf{q}_1, \ldots, \mathbf{q}_k\}{ q 1 , … , q k } 的算法:
u 1 = v 1 \mathbf{u}_1 = \mathbf{v}_1u 1 = v 1 ,q 1 = u 1 / ∥ u 1 ∥ \mathbf{q}_1 = \mathbf{u}_1 / \|\mathbf{u}_1\|q 1 = u 1 / ∥ u 1 ∥
对于 j = 2 , … , k j = 2, \ldots, kj = 2 , … , k :u j = v j − ∑ i = 1 j − 1 p r o j q i ( v j ) \mathbf{u}_j = \mathbf{v}_j - \sum_{i=1}^{j-1} {\rm proj}_{\mathbf{q}_i}(\mathbf{v}_j)u j = v j − ∑ i = 1 j − 1 p r o j q i ( v j ) ,然后 q j = u j / ∥ u j ∥ \mathbf{q}_j = \mathbf{u}_j / \|\mathbf{u}_j\|q j = u j / ∥ u j ∥
其中 p r o j q i ( v j ) = ⟨ v j , q i ⟩ q i {\rm proj}_{\mathbf{q}_i}(\mathbf{v}_j) = \langle \mathbf{v}_j, \mathbf{q}_i \rangle \mathbf{q}_ip r o j q i ( v j ) = ⟨ v j , q i ⟩ q i 。
在数值计算中,格拉姆-施密特的正交化版本可能存在数值不稳定性。实际中常用修正格拉姆-施密特或豪斯霍尔德变换。
内积空间 :定义了内积的向量空间称为内积空间。若在此度量下空间还是完备的(所有柯西序列都收敛),则称为希尔伯特空间 (Hilbert Space)。R n \mathbb{R}^nR n 是有限维希尔伯特空间,而平方可积函数空间 L 2 [ a , b ] L^2[a,b]L 2 [ a , b ] 是无限维希尔伯特空间,是傅里叶分析和量子力学的自然舞台。
矩阵分解是线性代数的"瑞士军刀"——将复杂矩阵分解为若干个简单矩阵的乘积,揭示矩阵的结构并简化计算:
LU 分解 :A = L U A = LUA = L U ,其中 L LL 是下三角矩阵,U UU 是上三角矩阵。高斯消元法的矩阵表达。通过部分选主元得到 P A = L U PA = LUP A = L U (P PP 是置换矩阵)。复杂度 O ( 2 3 n 3 ) O(\frac{2}{3}n^3)O ( 3 2 n 3 ) 。
QR 分解 :A = Q R A = QRA = Q R ,其中 Q QQ 是正交矩阵,R RR 是上三角矩阵。通过格拉姆-施密特正交化或豪斯霍尔德变换得到。QR 分解比 LU 更稳定,但计算量更大(约 O ( 2 n 3 ) O(2n^3)O ( 2 n 3 ) )。用于求解最小二乘问题、计算特征值的 QR 算法。
特征值分解 :若 A AA 可对角化,则 A = P D P − 1 A = PDP^{-1}A = P D P − 1 ,其中 D DD 是对角矩阵,其对角元是 A AA 的特征值;P PP 的列是对应的特征向量。特征值分解明确揭示了线性变换在不同方向上的作用方式。
奇异值分解(SVD) :A m × n = U m × m Σ m × n V n × n T A_{m \times n} = U_{m \times m} \Sigma_{m \times n} V^T_{n \times n}A m × n = U m × m Σ m × n V n × n T 。这是最重要、最通用的矩阵分解——适用于任意形状 的矩阵。
U UU 的列是 A A T AA^TA A T 的特征向量(左奇异向量)
V VV 的列是 A T A A^T AA T A 的特征向量(右奇异向量)
Σ \SigmaΣ 的对角元 σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > 0 \sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > 0 是奇异值(A T A A^T AA T A 特征值的平方根)
SVD 之所以强大,是因为它对任何矩阵都适用(不像特征值分解要求方阵且可对角化)。实际上,特征值分解是 SVD 在对称正定矩阵下的特例。
Cholesky 分解 :A = L L T A = LL^TA = L L T ,其中 L LL 是下三角矩阵。专用于对称正定矩阵。计算量约为 LU 的一半(O ( 1 3 n 3 ) O(\frac{1}{3}n^3)O ( 3 1 n 3 ) ),在数值计算中非常受欢迎——求解最小二乘的正规方程 A T A x = A T b A^T A \mathbf{x} = A^T \mathbf{b}A T A x = A T b 时,矩阵 A T A A^T AA T A 是正定的。
谱分解 :实对称矩阵 A AA 可写为 A = Q Λ Q T A = Q \Lambda Q^TA = Q Λ Q T ,其中 Q QQ 是正交矩阵,Λ \LambdaΛ 是对角矩阵。这等价于将 A AA 表示为秩 1 投影的和:A = ∑ i = 1 n λ i q i q i T A = \sum_{i=1}^n \lambda_i \mathbf{q}_i \mathbf{q}_i^TA = ∑ i = 1 n λ i q i q i T 。
谱定理是线性代数的核心定理之一:实对称矩阵(Hermitian 矩阵)可以被正交对角化 。即对于实对称矩阵 A AA ,存在正交矩阵 Q QQ 使得:
Q T A Q = Λ Q^T A Q = \Lambda
Q T A Q = Λ
其中 Λ \LambdaΛ 是以 A AA 的特征值为对角元的对角矩阵。这个定理保证了:
特征值全为实数
不同特征值对应的特征向量自动正交
存在一组标准正交的特征向量基
谱定理的泛函分析推广——自伴算子的谱定理——是量子力学和泛函分析的理论基石。
SVD 是线性代数中最优秀的"全能选手",没有之一。它解决了以下问题:
任意矩阵的结构分析
矩阵的最佳低秩近似
伪逆的定义和计算
数据压缩和降维
低秩近似 :Eckart-Young 定理指出,保留 SVD 中最大的 k kk 个奇异值零化其余部分得到的矩阵 A k A_kA k 是原始矩阵 A AA 在 Frobenius 范数下的最佳 k kk 秩近似:
∥ A − A k ∥ F = ∑ i = k + 1 r σ i 2 \|A - A_k\|_F = \sqrt{\sum_{i=k+1}^r \sigma_i^2}
∥ A − A k ∥ F = i = k + 1 ∑ r σ i 2
SVD 的典型应用场景 :
图像压缩 :将数字图像视为像素矩阵,取前 10-50 个奇异值重建,可以在保持视觉质量的同时减少 80% 以上的存储。
推荐系统 :Netflix Prize 中获奖的矩阵分解方法本质上是受限的 SVD——将用户-物品评分矩阵分解为两个低秩矩阵的乘积。
主成分分析 :对中心化的数据矩阵做 SVD,左奇异向量就是主成分方向。相比协方差矩阵的特征值分解,SVD 更数值稳定。
潜在语义分析(LSA) :在自然语言处理中,对词-文档矩阵做 SVD 得到"语义空间"。
伪逆(Moore-Penrose) :A + = V Σ + U T A^+ = V \Sigma^+ U^TA + = V Σ + U T ,其中 Σ + \Sigma^+Σ + 由 Σ \SigmaΣ 的非零奇异值取倒数得到。伪逆变解决欠定和超定线性系统的统一方法。
凯莱-哈密顿定理 :每个方阵都满足自己的特征多项式。即,若 p ( λ ) = det ( λ I − A ) p(\lambda) = \det(\lambda I - A)p ( λ ) = det ( λ I − A ) 是 A AA 的特征多项式,则 p ( A ) = 0 p(A) = 0p ( A ) = 0 。这一定理意味着 A n A^nA n 可以表示为 I , A , A 2 , … , A n − 1 I, A, A^2, \ldots, A^{n-1}I , A , A 2 , … , A n − 1 的线性组合,在矩阵指数计算、系统控制理论中都有关键应用。
若尔当标准型 :每个复方阵都相似于一个准对角矩阵,其对角块是若尔当块:
J ( λ ) = [ λ 1 0 ⋯ 0 0 λ 1 ⋯ 0 ⋱ ⋱ 0 0 ⋯ λ 1 0 0 ⋯ 0 λ ] J(\lambda) = \begin{bmatrix}
\lambda & 1 & 0 & \cdots & 0 \\
0 & \lambda & 1 & \cdots & 0 \\
\vdots & \vdots & \ddots & \ddots & \vdots \\
0 & 0 & \cdots & \lambda & 1 \\
0 & 0 & \cdots & 0 & \lambda
\end{bmatrix}J ( λ ) = ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ λ 0 ⋮ 0 0 1 λ ⋮ 0 0 0 1 ⋱ ⋯ ⋯ ⋯ ⋯ ⋱ λ 0 0 0 ⋮ 1 λ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤
若尔当标准型是理解矩阵在不可对角化情况下的"最简形式",比特征值分解更通用。
Binet-Cauchy 公式 :det ( A B ) = det ( A ) det ( B ) \det(AB) = \det(A)\det(B)det ( A B ) = det ( A ) det ( B ) 对任意同型方阵 A , B A, BA , B 成立。这看似简单,但 A B = I AB = IA B = I 推出 det ( A ) det ( B ) = 1 \det(A)\det(B) = 1det ( A ) det ( B ) = 1 ,从而可逆矩阵的行列式非零,是最有用的推论之一。
柯西-比内公式 :det ( A B ) = ∑ S det ( A [ m ] , S ) det ( B S , [ m ] ) \det(AB) = \sum_{S} \det(A_{[m],S}) \det(B_{S,[m]})det ( A B ) = ∑ S det ( A [ m ] , S ) det ( B S , [ m ] ) ,其中 A AA 是 m × n m \times nm × n 矩阵,B BB 是 n × m n \times mn × m 矩阵,m ≤ n m \leq nm ≤ n ,求和遍历所有 m mm 元指标子集 S SS 。这个公式将行列式乘法推广到了矩形矩阵。
线性代数是计算机科学的数学基石之一,几乎每个子领域都离不开它:
计算机图形学 :3D 模型变换(旋转、平移、缩放、透视投影)由 4×4 齐次坐标矩阵实现。游戏引擎每帧处理数百万个顶点,GPU 本身就是为大规模并行矩阵运算而设计的。
机器学习与深度学习 :神经网络的前向传播是矩阵乘法的串联:h = σ ( W x + b ) \mathbf{h} = \sigma(W\mathbf{x} + \mathbf{b})h = σ ( W x + b ) 。反向传播依赖雅可比矩阵链式法则。Transformer 架构中的自注意力机制核心是 softmax ( Q K T / d k ) V \text{softmax}(QK^T / \sqrt{d_k})Vsoftmax ( Q K T / d k ) V ——全部是矩阵运算。
搜索引擎 :Google PageRank 算法的核心是计算互联网链接矩阵的主特征向量 。互联网被建模为一个巨大的随机矩阵(Google 矩阵),其最大特征值对应的特征向量给出了每个页面的权威评分。
推荐系统 :矩阵分解(SVD、NMF)是协同过滤的经典方法。Netflix Prize 的获奖方案 SVD++ 至今仍是推荐系统的基础。
数据科学 :PCA(主成分分析)、线性回归(β ^ = ( X T X ) − 1 X T y \hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \mathbf{y}β ^ = ( X T X ) − 1 X T y )、LDA(线性判别分析)、支持向量机——这些经典统计学习方法全部建立在线性代数地基之上。
计算机视觉 :卷积神经网络将图像视为张量(3D 矩阵),卷积操作本质上是线性运算与非线性激活函数的组合。OpenCV 中的图像变换(透视矫正、仿射变换)全是矩阵运算。
密码学 :公钥密码中许多数学结构(如椭圆曲线)的底层依赖有限域上的线性代数运算。
量子力学 :状态 ∣ ψ ⟩ \ket{\psi}∣ ψ ⟩ 是希尔伯特空间中的向量,可观测量是 Hermitian 算符。薛定谔方程 H ∣ ψ ⟩ = E ∣ ψ ⟩ H\ket{\psi} = E\ket{\psi}H ∣ ψ ⟩ = E ∣ ψ ⟩ 就是特征值问题。量子门操作是酉矩阵。量子纠缠的本质是向量张量积空间的不可分性。
经典力学 :刚体惯性张量是 3×3 对称正定矩阵。拉格朗日方程和哈密顿方程中出现的 Hessian 矩阵是系统稳定的判据。
电磁学 :晶体的介电常数和磁导率是对称张量(矩阵)。Maxwell 方程组可通过线性代数方法化为矩阵形式进行数值求解。
结构力学 :有限元方法(FEM)将连续体离散化为有限元网格,求解大规模线性系统 K u = f K\mathbf{u} = \mathbf{f}K u = f (K KK 是刚度矩阵)。现代工程中 K KK 可能是百万级的稀疏矩阵。
电路分析 :节点电压法的核心是求解线性方程组 G v = i G\mathbf{v} = \mathbf{i}G v = i ,其中 G GG 是电导矩阵。
信号处理 :离散傅里叶变换(DFT)可表示为矩阵乘法 X = F x \mathbf{X} = F\mathbf{x}X = F x ,其中 F FF 是傅里叶矩阵。快速傅里叶变换(FFT)利用傅里叶矩阵的高度结构达到 O ( n log n ) O(n\log n)O ( n log n ) 而非 O ( n 2 ) O(n^2)O ( n 2 ) 的复杂度。
控制理论 :状态空间模型 x ˙ = A x + B u \dot{\mathbf{x}} = A\mathbf{x} + B\mathbf{u}x ˙ = A x + B u 是线性系统的标准描述。可控性矩阵 [ B A B A 2 B ⋯ ] [B \; AB \; A^2B \; \cdots][ B A B A 2 B ⋯ ] 的秩决定系统是否可控,可观性则由可观性 Gramian 矩阵的特征值决定。
通信工程 :MIMO(多输入多输出)无线通信的数学基础是矩阵——信道矩阵 H HH 的 SVD 分解用于空间复用,特征值刻画了信道的并行子通道的增益。
投入产出分析 :列昂惕夫(Leontief)投入产出模型 X = A X + D X = AX + DX = A X + D 的解为 X = ( I − A ) − 1 D X = (I - A)^{-1}DX = ( I − A ) − 1 D ,其中 A AA 是投入产出系数矩阵。这个模型直接指导着国民经济核算和产业政策分析。
博弈论 :二人零和博弈的混合策略纳什均衡求解等价于线性规划,而线性规划可以表示为线性不等式的求解问题。
计量经济学 :线性回归模型的 OLS 估计 β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol{\beta}} = (X'X)^{-1}X'\mathbf{y}β ^ = ( X ′ X ) − 1 X ′ y 是经验研究中最广泛的统计工具。
以 PCA 为例,其完整流水线全部由线性代数构成:
数据中心化:X ~ = X − X ˉ \tilde{X} = X - \bar{X}X ~ = X − X ˉ (减去均值向量)
协方差矩阵:Σ = 1 n − 1 X ~ T X ~ \Sigma = \frac{1}{n-1} \tilde{X}^T \tilde{X}Σ = n − 1 1 X ~ T X ~ (对称正定)
特征值分解:Σ = Q Λ Q T \Sigma = Q \Lambda Q^TΣ = Q Λ Q T
按特征值 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_pλ 1 ≥ λ 2 ≥ ⋯ ≥ λ p 排序
取前 k 个特征向量 Q k Q_kQ k
投影降维:Y = X ~ Q k Y = \tilde{X} Q_kY = X ~ Q k
每一步都是标准的线性代数运算,而 Q k Q_kQ k 正是数据在 k 维子空间上的最优逼近(在方差最大化的意义下)。
理论上的线性代数是精确的,但实际计算中处理的是近似浮点数、大规模矩阵和病态问题。数值线性代数专门研究这些实际问题。
由于计算机使用浮点数表示实数,每个操作都有舍入误差。对于条件数大的矩阵,这些误差会被放大。
条件数 (Condition Number):κ ( A ) = ∥ A ∥ ⋅ ∥ A − 1 ∥ \kappa(A) = \|A\| \cdot \|A^{-1}\|κ ( A ) = ∥ A ∥ ⋅ ∥ A − 1 ∥ 衡量矩阵 A AA 对误差的敏感度。
κ ( A ) \kappa(A)κ ( A ) 接近 1:良态矩阵
κ ( A ) \kappa(A)κ ( A ) 很大(> 1 0 6 >10^6> 1 0 6 ):病态矩阵
κ ( A ) = ∞ \kappa(A) = \inftyκ ( A ) = ∞ :奇异矩阵
实际意义:条件数为 κ \kappaκ 时,解的相对误差可能达到输入相对误差的 κ \kappaκ 倍。因此,对于 κ ( A ) = 1 0 8 \kappa(A) = 10^8κ ( A ) = 1 0 8 的矩阵,即使输入有 1 0 − 16 10^{-16}1 0 − 1 6 的误差(双精度浮点数的机器精度),解的误差也可能达到 1 0 − 8 10^{-8}1 0 − 8 ——这对许多应用是不可接受的。
部分选主元 的高斯消元是求解线性方程组的标准算法(LAPACK 的 dgesv 即使用该算法)
豪斯霍尔德 QR 分解 比格拉姆-施密特更稳定,是 QR 算法的主流实现
Jacobi SVD 提供最高的数值精度,但计算量大;分治 SVD (Divide-and-Conquer) 在精度和速度间取得平衡
预条件共轭梯度法 (PCG)是大规模稀疏系统的首选迭代法
特征值分解和 SVD 的完整计算复杂度为 O ( n 3 ) O(n^3)O ( n 3 ) ,对于 n > 1 0 4 n > 10^4n > 1 0 4 就变得困难
现实中的矩阵往往具有特殊结构可资利用:稀疏性、对称性、Toeplitz 结构等
Lanczos 方法 和Arnoldi 方法 用于求大规模稀疏矩阵的部分特征值和特征向量
随机 SVD :利用随机投影将 SVD 的复杂度降低到 O ( m n ⋅ k ) O(mn \cdot k)O ( m n ⋅ k ) 而不是 O ( m n ⋅ min ( m , n ) ) O(mn \cdot \min(m,n))O ( m n ⋅ min ( m , n ) )
GPU 上的矩阵乘法利用 CUDA 核心并行计算,cuBLAS 和 cuSPARSE 是事实上的行业标准
当代线性代数软件栈 :
层
库
底层
BLAS(Level 1-3)、LAPACK
C/C++
Eigen、Armadillo、PETSc
Python
NumPy/SciPy (np.linalg)、PyTorch/TensorFlow
Julia
LinearAlgebra 标准库
MATLAB
内置矩阵运算(旗舰功能)
GPU
cuBLAS、cuSPARSE、cuSOLVER
教材
特点
适合人群
Gilbert Strang《线性代数导论》
直觉驱动、几何直观、大量实例
初学者、工科生
Shelden Axler《线性代数应该这样学》
从线性映射出发,不依赖行列式
想建立现代理论视角者
Gilbert Strang《线性代数及其应用》
应用导向,大量实际案例
工程和科学背景
David C. Lay《线性代数及其应用》
结构清晰,习题丰富
本科教材
Horn & Johnson《矩阵分析》
全面深入的矩阵论
研究生/研究人员
Lloyd N. Trefethen《数值线性代数》
算法与数值稳定性
计算方向
Gilbert Strang 在 MIT 的公开课 18.06 Linear Algebra 是全世界评价最高的线性代数课程之一,其核心思想是"线性代数是要理解的,不只是要计算的"。
线性代数最好的学习方法之一是用代码实现概念 :
向量运算 :手动实现向量加法、点积、外积
矩阵运算 :实现矩阵乘法、转置、LU 分解
高斯消元 :实现带部分选主元的消元法
特征值 :实现幂迭代法求最大特征值
SVD :用 QR 算法实现 SVD
# 用 NumPy 验证线性代数概念
import numpy as np
# 验证特征值和特征向量
A = np.array([[3, 1], [1, 2]])
eigvals, eigvecs = np.linalg.eig(A)
print(f"特征值: {eigvals}")
print(f"特征向量:\n{eigvecs}")
print(f"验证: A @ v - λv = {A @ eigvecs[:,0] - eigvals[0] * eigvecs[:,0]}")
重计算轻概念 :花太多时间手动计算 4×4 逆矩阵,却不理解矩阵表达的线性变换。理论理解远比计算技巧重要——计算可以交给计算机。
忽视几何直觉 :"特征向量就是变换后方向不变的向量","行列式的绝对值是体积缩放因子"——这些直观理解帮助巨大。
跳过证明 :线性代数的证明通常简洁优美(如秩-零化度定理的证明只有几行),而且训练严密思维对理解现代数学极有帮助。
不知道"为什么有用" :理解为何线性代数在机器学习、图形学、量子力学中无处不在,才能激发持续学习的动力。
线性代数远不止是"矩阵运算"的集合。它是理解世界的一种方式——用向量来描述状态,用矩阵来描述变换,用特征值和奇异值来提取本质特征。
无论你是研究深度学习、开发 3D 游戏、分析经济数据还是研究量子物理,线性代数将是你最常使用的数学工具。Gilbert Strang 说得好:
"线性代数可能是数学中最有趣和最实用的分支之一——它完美地将抽象数学概念与具体计算结合起来。"
掌握线性代数,意味着你掌握了一门强大的数学语言——用它你既能定性理解变换的本质,又能定量解决现实世界的计算问题。