linear equation

「一次方程式」。一次函數的等式。

3 x + 4 y - 6 = 2 x + 5 z - 1

移項整理：變數在左邊，常數在右邊。

1 x + 2 y - 5 z = 5

system of linear equations

「一次方程組」。許多道一次方程式同時成立。

⎧ 1 x + 2 y - 5 z = 5
⎨ 2 x + 4 y + 6 z = 1
⎩ 3 x + 1 y + 7 z = 4

一次方程組求解，等同於線性函數求解，或者說矩陣求解。

⎧ 1 x + 2 y - 5 z = 5        ⎡ 1 2 -5 ⎤ ⎡ x ⎤   ⎡ 5 ⎤
⎨ 2 x + 4 y + 6 z = 1  --->  ⎢ 2 4  6 ⎥ ⎢ y ⎥ = ⎢ 1 ⎥
⎩ 3 x + 1 y + 7 z = 4        ⎣ 3 1  7 ⎦ ⎣ z ⎦   ⎣ 4 ⎦
                                 A        x       b

特殊矩陣擁有特殊演算法，稍微省時，詳情請見MATLAB的mldivide說明圖片。簡單起見，以下不介紹特殊矩陣的演算法。

inverse

「反矩陣」。一旦知道反矩陣，即可輕鬆解一次方程組。而且還可以隨意抽換等號右邊數值。

solve Ax = b  --->  find A⁻¹, then x = A⁻¹b

一次方程組求解演算法，稍作修改，即得反矩陣演算法。

linear equation: elimination

等量公理

相信大家已經學過如何解一次方程組：由上往下消除變數，變成階梯狀；由下往上解出變數，變成對角線。

由上往下消除變數的過程，就叫做「高斯消去法」。

演算法（Gaussian elimination）

一個矩陣，化成上三角矩陣，對角線元素皆為一。

由上往下，處理每個橫條，實施三種運算：交換、倍率、相減。

如果橫條的首項係數不是零，以該橫條抵銷下方橫條，令下方橫條的首項係數化成零。如果是零，就往下找到非零橫條，先交換，再抵銷。

pivot row：首項係數不是零的橫條。
pivot：上述橫條的首項係數。
pivoting：找到pivot row，視情況進行交換。

減少誤差的方法：取絕對值最大的pivot row，抵銷其餘row。換句話說，首項係數絕對值最大的橫條，總是交換到上方，再來抵銷下方橫條。倍率小於1，相減誤差少。

矩陣邊長N×M，時間複雜度O(N²M)。大家習慣討論方陣，N = M，時間複雜度O(N³)。

方陣的高斯消去法，程式碼如下所示。矩陣的高斯消去法，留給大家自行練習。

解一次方程組

首先實施高斯消去法，求得上三角矩陣。

由下往上，處理每個橫條。把先前解出的變數，代入到目前橫條，解出變數。時間複雜度O(N²)。

UVa 10109 10524 10828 ICPC 3563

演算法（Gauss–Jordan elimination）

「高斯喬登消去法」是延伸版本。對角線化成一、其餘化成零。

時間複雜度仍是O(N³)。

高斯喬登消去法也可以解一次方程組，但是步驟數量比較多。主要用途是求反矩陣。

求反矩陣

利用「高斯喬登消去法」。

求determinant

利用「高斯消去法」，對角線不化成一，保留原有數字。

上三角矩陣，對角線元素的乘積，便是determinant。

如果矩陣裡都是整數，那麼determinant也是整數。想避免浮點數誤差，可以使用輾轉相除法進行消去。時間複雜度O(N³logC)，C是絕對值最大的首項係數。

UVa 684

LU decomposition

高斯消去法可以改寫成LUP分解！時間複雜度O(N³)。

交換橫條、抵銷橫條，可以改寫成矩陣乘法。一連串交換橫條、抵銷橫條，可以整併成三個矩陣連乘：下三角矩陣L、上三角矩陣U、列交換矩陣P。稱作「LUP分解」。

如果恰好都沒有交換橫條，則可忽略P。稱作「LU分解」。

LU分解的用途是解大量一次方程組Ax = b，A固定，b有許多組。這種情況下，LU分解，每次求解需時O(N²)；高斯消去法，每次求解需時O(N³)。

Cholesky decomposition

「對稱正定矩陣symmetric positive definite matrix」：特徵值均為正數。

對稱正定矩陣的LU分解。L與U將互相對稱。

時間複雜度仍是O(N³)，但是步驟數量較少。

linear equation: relaxation

移項法則

所有等式一齊求反矩陣，繁文縟節，慢慢吞吞。

每道等式一一求反函數，化整為零，簡單明快。

演算法（Jacobi iteration）

每回合依序計算x y z，一次處理一種變數。可以視作不動點遞推法的進化版本。

二維：

⎡ 4  3 ⎤ ⎡ x ⎤ = ⎡ 1 ⎤
⎣ 2  5 ⎦ ⎣ y ⎦   ⎣ 2 ⎦

⎰ 4x + 3y = 1  => ⎰ x = (1 - 3y) / 4
⎱ 2x + 5y = 2     ⎱ y = (2 - 2x) / 5

⎡ x₀ ⎤ = ⎡ 0 ⎤ 隨便設定一解，作為初始值。
⎣ y₀ ⎦   ⎣ 0 ⎦
    
⎡ x₁ ⎤ = ⎡ (1 - 3y₀) / 4 ⎤
⎣ y₁ ⎦   ⎣ (2 - 2x₀) / 5 ⎦
    
⎡ x₂ ⎤ = ⎡ (1 - 3y₁) / 4 ⎤
⎣ y₂ ⎦   ⎣ (2 - 2x₁) / 5 ⎦

三維：

⎡  4  3 -1 ⎤ ⎡ x ⎤   ⎡ 1 ⎤
⎢  2  5  1 ⎥ ⎢ y ⎥ = ⎢ 2 ⎥
⎣ -2 -2  6 ⎦ ⎣ z ⎦   ⎣ 3 ⎦

⎧  4x + 3y -  z = 1     ⎧ x = (1 - 3y +  z) / 4
⎨  2x + 5y +  z = 2  => ⎨ y = (2 - 2x -  z) / 5
⎩ -2x - 2y + 6z = 3     ⎩ z = (3 + 2x + 2y) / 6

⎡ x₀ ⎤   ⎡ 0 ⎤
⎢ y₀ ⎥ = ⎢ 0 ⎥ 隨便設定一解，作為初始值。
⎣ z₀ ⎦   ⎣ 0 ⎦

⎡ x₁ ⎤   ⎡ (1 - 3y₀ +  z₀) / 4 ⎤
⎢ y₁ ⎥ = ⎢ (2 - 2x₀ -  z₀) / 5 ⎥
⎣ z₁ ⎦   ⎣ (3 + 2x₀ + 2y₀) / 6 ⎦

任意維度：

      Ax = b
(D+L+U)x = b                  D是對角線、L是嚴格下三角、U是嚴格上三角
      Dx = b - (L+U)x
       x = D⁻¹ [b - (L+U)x]
       x = D⁻¹b - D⁻¹(L+U)x

時間複雜度O(N²T)，N是方陣維度，T是遞推次數。

高斯消去法直接得到正解。鬆弛法逐步逼近正解。

當b = 0，則完全等價於D⁻¹(L+U)實施不動點遞推法。

判斷收斂：檢查D⁻¹(L+U)的特徵值的絕對值是否都小於1。

「嚴格對角優勢矩陣strictly diagonally dominant matrix」：每個橫條，對角線元素大於其餘元素總和。

SDD矩陣，保證收斂；不滿足時，可能收斂、也可能不收斂。

for each row, |Aii| > ∑ |Aij|
                     j≠i

演算法（Gauss–Seidel iteration）

每回合依序計算x y z，剛出爐的數字，馬上拿來使用，加快收斂速度。

⎡  4  3 -1 ⎤ ⎡ x ⎤   ⎡ 1 ⎤
⎢  2  5  1 ⎥ ⎢ y ⎥ = ⎢ 2 ⎥
⎣ -2 -2  6 ⎦ ⎣ z ⎦   ⎣ 3 ⎦

⎧  4x + 3y -  z = 1     ⎧ x = (1 - 3y +  z) / 4
⎨  2x + 5y +  z = 2  => ⎨ y = (2 - 2x -  z) / 5
⎩ -2x - 2y + 6z = 3     ⎩ z = (3 + 2x + 2y) / 6

⎡ x₀ ⎤   ⎡ 0 ⎤
⎢ y₀ ⎥ = ⎢ 0 ⎥ 隨便設定一解，作為初始值。
⎣ z₀ ⎦   ⎣ 0 ⎦

⎡ x₁ ⎤   ⎡ (1 - 3y₀ +  z₀) / 4 ⎤ 依序計算x₁、y₁、z₁，
⎢ y₁ ⎥ = ⎢ (2 - 2x₁ -  z₀) / 5 ⎥ 剛出爐的數字，馬上拿來使用，
⎣ z₁ ⎦   ⎣ (3 + 2x₁ + 2y₁) / 6 ⎦ 加快收斂速度。

xₖ₊₁ = D⁻¹ (b - Uxₖ - Lxₖ₊₁)

演算法（successive over-relaxation）

原數值、新數值，以固定比例混合。

可令原數值權重小於零、新數值權重大於一，硬是催出收斂速度。

⎡ x₁ ⎤   ⎡ (1-w) ⋅ x₀ + w ⋅ (1 - 3y₀ +  z₀) / 4 ⎤
⎢ y₁ ⎥ = ⎢ (1-w) ⋅ y₀ + w ⋅ (2 - 2x₁ -  z₀) / 5 ⎥
⎣ z₁ ⎦   ⎣ (1-w) ⋅ z₀ + w ⋅ (3 + 2x₁ + 2y₁) / 6 ⎦

linear equation: projection

linear equation與geometry

一次方程式得視作幾何元件：點、線、面、……。

ContourPlot3D[1 x + 2 y - 5 z == 5, {x, -5, 5}, {y, -5, 5}, {z, -5, 5}, Boxed -> False, Axes -> False, Mesh -> None]

一次方程組的解得視作一堆幾何元件的交集。

f := 1 x + 2 y - 5 z - 5; g := 2 x + 4 y + 6 z - 1; h := 3 x + 1 y + 7 z - 4; ContourPlot3D[{f == 0, g == 0, h == 0}, {x, -5, 5}, {y, -5, 5}, {z, -5, 5}, Boxed -> False, Axes -> False, Mesh -> None, ContourStyle -> Directive[Opacity[0.5]]]

演算法（Kaczmarz's method）

隨便設定一解，依序投影到第一道等式、第二道等式、……，不斷循環，逐步逼近正解。

時間複雜度O(N²T)，N是方陣維度，T是遞推次數。

無解時，最後形成無窮迴圈，稱作「極限環limit cycle」。

數學公式（Cramer's rule）

兩線交點的演算法：求得平行四邊形的面積，以面積比例求得交點位置。請見本站文件「intersection」。

「克拉瑪公式」則是此演算法的高維度版本，形成了非常漂亮的公式解！求得超平行體的容積，以容積比例求得解。

linear equation:
  Ax = b

solution:
  ⎧ x = det(Aₓ) / det(A)
  ⎨ y = det(A₝) / det(A)
  ⎩ z = det(A₞) / det(A)

unisolvence:
   Ax = b has a unique solution   iff   det(A) ≠ 0

example:
  ⎧ 1 x + 2 y - 5 z = 5        ⎡ 1 2 -5 ⎤ ⎡ x ⎤   ⎡ 5 ⎤
  ⎨ 2 x + 4 y + 6 z = 1  --->  ⎢ 2 4  6 ⎥ ⎢ y ⎥ = ⎢ 1 ⎥
  ⎩ 3 x + 1 y + 7 z = 4        ⎣ 3 1  7 ⎦ ⎣ z ⎦   ⎣ 4 ⎦
                                   A        x       b
         _ b                  _ b                  _ b
       ⎡|5| 2 -5 ⎤       ⎡ 1 |5|-5 ⎤       ⎡ 1  2 |5|⎤
  Aₓ = ⎢|1| 4  6 ⎥  A₝ = ⎢ 2 |1| 6 ⎥  A₞ = ⎢ 2  4 |1|⎥
       ⎣|4| 1  7 ⎦       ⎣ 3 |4| 7 ⎦       ⎣ 3  1 |4|⎦
         ‾                    ‾                    ‾

determinant是矩陣當中所有向量所構成的超平行體的容積。時間複雜度等於N+1次determinant的時間複雜度，O(N⁴)。

determinant

determinant起初用來判定一個一次方程組是否有解、解是多少，因而稱作「決定因子」。古人沒有意識到determinant是容積。

字面意義是「決定因子」，中文教科書卻譯作「行列式」。真是異想天開的翻譯啊！

行列式的計算過程是：先刪除一橫行，接著分別刪除每一直行，形成N-1個(N-1)×(N-1)子矩陣，添上正負號。原矩陣的行列式，等於這些子矩陣的行列式總和。每個子矩陣各自遞迴下去，直到N=1。1×1矩陣的行列式，等於矩陣元素。時間複雜度O(N!)。

N = 2 or 3的時候比較特別，可以直接累加所有「左上右下斜線」的乘積、累減「右上左下斜線」的乘積。中學數學課程有教。

計算行列式，也可以使用高斯消去法，時間複雜度O(N³)。

與其採用高斯消去法求行列式、再用行列式解一次方程組，不如直接採用高斯消去法解一次方程組。就當作是學個想法吧。

linear equation: decomposition

linear equation與algebra

一次方程組可以寫成矩陣乘法的形式。

⎧ 1 x + 2 y - 5 z = 5        ⎡ 1 2 -5 ⎤ ⎡ x ⎤   ⎡ 5 ⎤
⎨ 2 x + 4 y + 6 z = 1  --->  ⎢ 2 4  6 ⎥ ⎢ y ⎥ = ⎢ 1 ⎥
⎩ 3 x + 1 y + 7 z = 4        ⎣ 3 1  7 ⎦ ⎣ z ⎦   ⎣ 4 ⎦
                                 A        x       b

一次方程組得視作線性函數，解一次方程組得視作線性反函數。

                                                 -1
⎡ 1 2 -5 ⎤ ⎡ x ⎤   ⎡ 5 ⎤        ⎡ x ⎤   ⎡ 1 2 -5 ⎤ ⎡ 5 ⎤
⎢ 2 4  6 ⎥ ⎢ y ⎥ = ⎢ 1 ⎥  --->  ⎢ y ⎥ = ⎢ 2 4  6 ⎥ ⎢ 1 ⎥
⎣ 3 1  7 ⎦ ⎣ z ⎦   ⎣ 4 ⎦        ⎣ z ⎦   ⎣ 3 1  7 ⎦ ⎣ 4 ⎦
    A        x       b            x         A⁻¹      b

數學公式（inverse matrix）

一旦求得反矩陣，即可輕鬆解一次方程組。

solve Ax = b  --->  find A⁻¹, then x = A⁻¹b

計算反矩陣，使用高斯喬登消去法，時間複雜度O(N³)。

與其採用高斯喬登消去法求反矩陣、再用反矩陣解一次方程組，不如直接採用高斯消去法解一次方程組。就當作是學個想法吧。

數學公式（eigendecomposition）

一旦求得特徵分解，即可輕鬆解一次方程組。

A   = EΛE⁻¹
A⁻¹ = EΛ⁻¹E⁻¹
x = A⁻¹b = EΛ⁻¹E⁻¹b

與其採用特徵分解求反矩陣、再用反矩陣解一次方程組，不如直接採用高斯消去法解一次方程組。就當作是學個想法吧。

linear equation: root finding

演算法（Newton's method）

Ax = b的解，即是f(x) = Ax - b的根。

牛頓法。x = x - Aᵀ⁻¹(Ax - b)。

光是求反矩陣就需時O(N³)。無人使用。

與其求反矩陣、不斷遞推，不如直接採用高斯消去法。就當作是學個想法吧。

演算法（Richardson iteration）

Ax = b的解，即是g(x) = Ax - b + x的不動點。

不動點遞推法。可以添加權重α。x = x + α(Ax - b)。

時間複雜度O(N²T)，N是方陣維度，T是遞推次數。

與其求餘數、不斷遞推，不如直接採用Jacobi iteration。就當作是學個想法吧。

linear equation: optimization

「一次函數求解」等於「二次函數求極值」

A必須是對稱正定矩陣，使得二次函數有唯一最小值。

     solve Ax = b               (if A has unique solution)
---> solve Ax - b = 0           (transposition)
---> min 1/2 xᵀAx - bᵀx         (quadratic optimization)

let f(x)  = 1/2 xᵀAx - bᵀx
let f′(x) = Ax - b

     solve Ax = b               (if A has no solution)
---> min ‖Ax - b‖²              (least squares)
---> min xᵀAᵀAx - 2bᵀAx + bᵀb   (expansion)
---> min xᵀAᵀAx - 2bᵀAx         (quadratic optimization)

let f(x)  = xᵀAᵀAx - 2bᵀAx
let f′(x) = Aᵀ(Ax - b)

f(x)的最小值位置，即是f′(x)的根，即是Ax = b的解。

f(x)的最佳化演算法是「共軛梯度法」。優於高斯消去法。

時間複雜度O(N²T)，N是方陣維度，T是遞推次數。

「矩陣求解」化作「對稱正定矩陣求解」

當A不是對稱正定矩陣，那麼等號兩邊同時乘上Aᵀ，得到對稱半正定矩陣AᵀA。當A有唯一解，則得到對稱正定矩陣AᵀA。

     solve Ax = b       (if A has unique solution)
---> solve AᵀAx = Aᵀb   (AᵀA is symmetric positive definite)
---> solve A'x = b'     (unique solution)

     solve Ax = b       (if A has no solution)
---> min ‖Ax - b‖²      (least squares)
---> solve AᵀAx = Aᵀb   (AᵀA is symmetric positive semidefinite)
                        (normal equation)
---> solve A'x = b'     (least squares solution)

與其變成對稱正定矩陣、再用共軛梯度法解一次方程組，不如直接採用高斯消去法解一次方程組。就當作是學個想法吧。

linear least squares

唯一解是稀奇的，無解、多解是普遍的。無解、多解時，改為找到平方誤差最小的解。

no solution：無解。改求‖Ax - b‖²最小的解。
infinitely many solutions：多解。改求‖x‖²最小的解。
unique solution：唯一解。求Ax = b的解。

min ‖Ax - b‖²：方程組每一道等式，求得等號左右兩邊的差的平方；累計所有等式，總和越小越好。

min ‖x‖²：解的每一項的平方，總和越小越好。

no solution / infinitely many solutions

請見「Rouché-Capelli theorem」。

矩陣的rank、column，得以區分無解、多解。

rank：消去冗餘的等式。column：直條數量、變數數量。

no solution              : rank(A) ≠ rank([A|b])
infinitely many solutions: rank(A) = rank([A|b]) ≠ column(A)
unique solution          : rank(A) = rank([A|b]) = column(A)

overdetermined system / underdetermined system

⎡ X X ⎤               ⎡ X X X ⎤
⎢ X X ⎥   ⎡ X X X ⎤   ⎢ X X X ⎥
⎣ X X ⎦   ⎣ X X X ⎦   ⎣ X X X ⎦
 thin        fat        square

overdetermined system  (thin matrix)  : row(A) > column(A)
underdetermined system (fat matrix)   : row(A) < column(A)
welldetermined system  (square matrix): row(A) = column(A)

超定方程組（瘦矩陣）：等式太多。等式多於變數。
欠定方程組（胖矩陣）：等式太少。等式少於變數。
良定方程組（方陣）　：等式剛好。等式等於變數。

等式太多太少剛好，答案無解多解唯一解，兩邊沒有直接關係。

方便起見，許多人修改定義，兩邊直接一一對應。包括下文。

一般而言，等式太多，很可能無解；等式太少，很可能多解。

pseudoinverse（Moore–Penrose inverse）

「虛擬反矩陣」、「偽反矩陣」。反矩陣從方陣推廣成矩陣。

solve Ax = b  --->  find A⁺, then x = A⁺b

linear least squares: decomposition

三種數學公式

solve overdetermined system Ax = b  --->  min ‖Ax - b‖²

x = (Aᵀ A)⁻¹ Aᵀ b     ( Aᵀ A x = Aᵀ b )   normal equation

x = R⁻¹ Q b           ( A = Q R )         QR decomposition

x = V Σ⁻¹ Uᵀ b        ( A = U Σ Vᵀ )      singular value decomposition

solve underdetermined system Ax = b  --->  min ‖x‖²

x = Aᵀ (A Aᵀ)⁻¹ b                         normal equation

x = Q (Rᵀ)⁻¹ b        ( Aᵀ = Q R )        QR decomposition

x = U Σ⁻¹ Vᵀ b        ( Aᵀ = U Σ Vᵀ )     singular value decomposition

數學公式（normal equation）

線性代數經典公式！視作最佳化問題，以微分求極值。

「一次微分等於零」的地方是極值、鞍點。因為平方誤差是開口向上的拋物面，所以「一次微分等於零」的地方必是最小值。

以下只證明無解的情況。時間複雜度O(N³)。

solve Ax = b
min ‖Ax - b‖²
d/dx ‖Ax - b‖² = 0                    「一次微分等於零」的地方是極值、鞍點
[ d/dx (Ax - b) ] [ 2(Ax - b) ] = 0   微分連鎖律
Aᵀ [ 2(Ax - b) ] = 0                  微分
AᵀAx = Aᵀb                            同除以2、展開、移項
x = (AᵀA)⁻¹Aᵀb                        移項。注意到A的向量們必須線性獨立！

注意到最後一步，A的向量們必須線性獨立（事先清除冗餘的、無意義的變數），AᵀA才有反矩陣。

結果宛如向量投影公式：b投影到A。

                 Aᵀb   dot(A,b)
x = (AᵀA)⁻¹Aᵀb = ——— = ———————— = proj_Ab
                 AᵀA   dot(A,A)

平方誤差盡量小＝垂直投影！分析與幾何兩大領域打通了！

     solve Ax = b
---> min ‖Ax - b‖²
---> 2Aᵀ(Ax - b) = 0
---> x = proj_Ab

數學公式（QR decompostion）

以下只證明無解的情況。A = QR，正規正交矩陣Q不影響最小值，最小值取決於零餘部分R。

至於多解的情況，改為分解A的轉置矩陣Aᵀ = QR。

時間複雜度O(N³)。但是計算量比normal equation少。

solve Ax = b
min ‖Ax - b‖²
min ‖Qᵀ(Ax - b)‖²           正規正交矩陣，變換後長度不變
min ‖QᵀAx - Qᵀb‖²           展開
min ‖Rx - Qᵀb‖²             QᵀA = QᵀQR = R
min ‖ ⎡ R₁x - Q₁ᵀb ⎤ ‖²     R = ⎡ R₁ ⎤  區分出零，讓R₁是方陣
    ‖ ⎣   0 - Q₂ᵀb ⎦ ‖          ⎣ 0  ⎦  區分上段和下段
solve R₁x - Q₁ᵀb = 0        此式有唯一解，可為零（因此最小值是 ‖Q₂ᵀb‖²）
R₁x = Q₁ᵀb                  移項
x = R₁⁻¹Q₁ᵀb                移項

數學公式（singular value decompostion）

以下只證明無解的情況。證明手法如出一轍。A = UΣVᵀ。

至於多解的情況，改為分解A的轉置矩陣Aᵀ = UΣVᵀ。

時間複雜度O(N³)。我不確定實務上是否比較快。

solve Ax = b
min ‖Ax - b‖²
min ‖Uᵀ(Ax - b)‖²        正規正交矩陣，變換後長度不變
min ‖UᵀAx - Uᵀb‖²        展開
min ‖ΣVᵀx - Uᵀb‖²        UᵀA = UᵀUΣVᵀ = ΣVᵀ
solve ΣVᵀx - Uᵀb = 0     此式有唯一解，可為零
ΣVᵀx = Uᵀb               移項
x = VΣ⁻¹Uᵀb              移項

linear least squares: optimization

演算法（gradient descent）（Richardson iteration）

梯度下降法＝不動點遞推法。

f(x)  = ‖Ax - b‖²
f′(x) = Aᵀ(Ax - b)

x_next = x + α f′(x)     α is step size

自訂步伐大小α。有人設定成α = 2 / σ_max²，其中σ_max是最大的奇異值。

演算法（steepest descent）

最陡下降法＝梯度下降法＆直線搜尋。

x_next = x + α f′(x)
α = argmin f(x + α f′(x)) = ‖f′(x)‖² / ‖A f′(x)‖²

步伐大小是‖f′(x)‖² / ‖A f′(x)‖²。證明省略。

homogeneous linear equation

Tikhonov regularization

一次方程組，無解、多解時，改為最佳化問題，以得到唯一解。

solve Ax = b   --->   min ‖Ax - b‖²   [overdetermined system]
solve Ax = b   --->   min ‖x‖²        [underdetermined system]

甚至利用regularization，追加其他最佳化目標。

solve Ax = b   --->   min ‖Ax - b‖² + α f(x)   (α ≥ 0)
solve Ax = b   --->   min ‖x‖² + α f(x)   (α ≥ 0)

一次方程組，有許多式子和變數。可能有其中一群變數與式子構成無解、另一群構成唯一解、剩下一群構成多解。更有甚者，切割一些群結果無解變多解、整併某些群結果多解變無解。

無法釐清是無解、多解的時候，那就兩個一起上吧。

solve Ax = b   --->   min ‖Ax - b‖² + α ‖x‖²   (α ≥ 0)

d/dx [ ‖Ax - b‖² + α ‖x‖² ] = 0   「一次微分等於零」的地方是極值、鞍點
                                  二次函數、恆正，必得最小值
2 AᵀA x - 2 Aᵀ b + 2 α x = 0      展開

( AᵀA + α I ) x = Aᵀ b            移項，左式即是 AᵀA 的對角線加上 α

左式是實數對稱正定矩陣，有唯一解。時間複雜度O(N³)。

homogeneous linear equation

討論特例b = 0的情況。顯然答案包含x = 0。

可能多解、唯一解。不可能無解。至少有一解x = 0。

solve Ax = 0

homogeneous linear least squares

討論特例b = 0的情況。當b = 0，則x = 0，缺乏討論意義。於是添加限制「x長度（的平方）為1」，增進討論意義。

如果原本是多解，那麼添加限制可以找到x = 0以外的解。如果原本是唯一解x = 0，那麼添加限制可以找到原本不存在的解。

solve Ax = 0   --->   min ‖Ax‖² subject to ‖x‖² = 1

min ‖Ax‖² - λ ( ‖x‖² - 1 )             Lagrange multiplier

∂/∂x [ ‖Ax‖² - λ ( ‖x‖² - 1 ) ] = 0   「一次微分等於零」的地方是極值、鞍點
                                       二次函數，必得極值
2 AᵀA x - 2 λ x = 0                    展開

AᵀA x = λ x                            移項，此即特徵向量的格式

答案是AᵀA的最小的特徵值的特徵向量！

AᵀA是對稱半正定矩陣，特徵值即是奇異值，特徵向量即是奇異向量。

AᵀA的特徵值即是A的奇異值，AᵀA的特徵向量即是A的右奇異向量。