factoring

factoring【尚無正式名稱】

「分解」。擷取數據的特質，進而調整數據。

註：以下介紹的主題，屬於多變量統計分析multivariate statistics analysis領域的其中一部分。

principal coordinate analysis

Gram matrix

「點積矩陣」。儲存兩兩點積，元素Aᵢⱼ是i點與j點的點積。

    ⎡ p₀∙p₀ p₀∙p₁ p₀∙p₂ p₀∙p₃ ... ⎤
    ⎢ p₁∙p₀ p₁∙p₁ p₁∙p₂ p₁∙p₃ ... ⎥
G = ⎢ p₂∙p₀ p₂∙p₁ p₂∙p₂ p₂∙p₃ ... ⎥
    ⎢ p₃∙p₀ p₃∙p₁ p₃∙p₂ p₃∙p₃ ... ⎥
    ⎣   :     :     :     :       ⎦

給定數據矩陣，求得點積矩陣：對稱半正定矩陣XᵀX。

    ⎡ |  |     ⎤        ⎡          ⎤⎡    |     ⎤   ⎡     :     ⎤
X = ⎢ p₀ p₁ .. ⎥  XᵀX = ⎢ —— pᵢ —— ⎥⎢    pⱼ    ⎥ = ⎢.. pᵢ∙pⱼ ..⎥
    ⎣ |  |     ⎦        ⎣          ⎦⎣    |     ⎦   ⎣     :     ⎦

給定點積矩陣，求得數據矩陣：答案無限多個，例如特徵分解的共軛分解X = √ΛEᵀ、Cholesky分解的共軛分解X = Lᵀ。

eigendecomposition:             Cholesky decomposition:
XᵀX = EΛEᵀ                      XᵀX = LLᵀ
XᵀX = E√Λ√ΛEᵀ = (√ΛEᵀ)ᵀ√ΛEᵀ     X = Lᵀ
X = ⟌XᵀX = √ΛEᵀ

註：共軛分解的數學符號⟌，我自己瞎掰的。

distance matrix

「距離矩陣」。儲存兩兩距離，元素Aᵢⱼ是i點與j點的距離。

    ⎡ ‖p₀-p₀‖ ‖p₀-p₁‖ ‖p₀-p₂‖ ‖p₀-p₃‖ ... ⎤
    ⎢ ‖p₁-p₀‖ ‖p₁-p₁‖ ‖p₁-p₂‖ ‖p₁-p₃‖ ... ⎥
M = ⎢ ‖p₂-p₀‖ ‖p₂-p₁‖ ‖p₂-p₂‖ ‖p₂-p₃‖ ... ⎥
    ⎢ ‖p₃-p₀‖ ‖p₃-p₁‖ ‖p₃-p₂‖ ‖p₃-p₃‖ ... ⎥
    ⎣    :       :       :       :        ⎦

給定數據矩陣，求得距離矩陣：利用全一矩陣。

每項平方　　　X⊙X
橫條平方和　　(X⊙X)𝟏 = ‖pᵢ‖²
直條平方和　　𝟏(X⊙X) = ‖pⱼ‖²
兩兩點積　　　XᵀX = (pᵢ ∙ pⱼ)
兩兩距離平方　(X⊙X)𝟏 + 𝟏(X⊙X) - 2(XᵀX) = M⊙M
　　　　　　　‖pᵢ‖² + ‖pⱼ‖² - 2(pᵢ ∙ pⱼ) = ‖pᵢ - pⱼ‖²
每項開根號　　√[(X⊙X)𝟏 + 𝟏(X⊙X) - 2(XᵀX)]ᵢⱼ = Mᵢⱼ

給定距離矩陣，求得數據矩陣：利用中心化矩陣。

兩兩距離　　Mᵢⱼ = ‖pᵢ - pⱼ‖
每項平方　　M⊙M = ‖pᵢ - pⱼ‖² = ‖pᵢ‖² + ‖pⱼ‖² - 2(pᵢ ∙ pⱼ)
行列中心化　C(M⊙M)C = -2(pᵢ ∙ pⱼ) = -2XᵀX
除以負二　　-½C(M⊙M)C = (pᵢ ∙ pⱼ) = XᵀX
共軛分解　　⟌-½C(M⊙M)C = X

證明：行列中心化

距離平方矩陣Mᵢⱼ² = ‖pᵢ‖² + ‖pⱼ‖² - 2(pᵢ ∙ pⱼ)。

試證：橫條中心化、直條中心化，可以消去平方項‖pᵢ‖²和‖pⱼ‖²，留下交叉項-2(pᵢ ∙ pⱼ)。

一、中心化可以消去平方項。

橫條擁有相同‖pᵢ‖²。各個橫條各自減去平均數，可以消去‖pᵢ‖²。橫條中心化消去橫條平方項。同理，直條中心化消去直條平方項。

      ⎡ ‖p₀‖²+‖p₀‖²-2(p₀∙p₀)  ‖p₀‖²+‖p₁‖²-2(p₀∙p₁)  ... ⎤
      ⎢ ‖p₁‖²+‖p₀‖²-2(p₁∙p₀)  ‖p₁‖²+‖p₁‖²-2(p₁∙p₁)  ... ⎥
M⊙M = ⎢ ‖p₂‖²+‖p₀‖²-2(p₂∙p₀)  ‖p₂‖²+‖p₁‖²-2(p₂∙p₁)  ... ⎥
      ⎢ ‖p₃‖²+‖p₀‖²-2(p₃∙p₀)  ‖p₃‖²+‖p₁‖²-2(p₃∙p₁)  ... ⎥
      ⎣          :                     :                ⎦
        ^^^^^                 ^^^^^

二、中心化也會改變交叉項。

但是我們需要交叉項。解決方法：假設數據已經中心化。

此時數據任一維度總和為零∑pⱼ = 0，使得橫條交叉項總和為零∑ⱼ(-2(pᵢ ∙ pⱼ)) = -2(pᵢ ∙ (∑pⱼ)) = 0。橫條中心化不改變橫條交叉項。同理，直條中心化不改變直條交叉項。

      ⎡ ‖p₀‖²+‖p₀‖²-2(p₀∙p₀)  ‖p₀‖²+‖p₁‖²-2(p₀∙p₁)  ... ⎤
      ⎢ ‖p₁‖²+‖p₀‖²-2(p₁∙p₀)  ‖p₁‖²+‖p₁‖²-2(p₁∙p₁)  ... ⎥
M⊙M = ⎢ ‖p₂‖²+‖p₀‖²-2(p₂∙p₀)  ‖p₂‖²+‖p₁‖²-2(p₂∙p₁)  ... ⎥
      ⎢ ‖p₃‖²+‖p₀‖²-2(p₃∙p₀)  ‖p₃‖²+‖p₁‖²-2(p₃∙p₁)  ... ⎥
      ⎣          :                     :                ⎦
                   ^^^^^^^^^             ^^^^^^^^^

三、橫條中心化、直條中心化，無論誰先做，結果都一樣。

principal coordinate analysis

「主座標分析」。已知距離矩陣，求得數據矩陣。

方才已介紹。換句話說吧。

一、距離矩陣M，每項平方，求得距離平方矩陣M⊙M。
二、距離平方矩陣M⊙M，橫條中心化，直條中心化，除以-2，求得點積矩陣XᵀX。
三、點積矩陣XᵀX，共軛分解，求得數據矩陣X。

low-rank principal coordinate analysis

「低秩主座標分析」。已知距離矩陣，求得數據矩陣。降低數據維度，盡量保持原本距離。

p = {{-0.0561955,-0.00847422,0.453698},{-0.334564,-0.272408,-0.238724},{-0.567886,0.0607641,0.265588},{0.502573,-0.344719,-0.296151},{0.19767,0.450711,0.0407837},{-0.0795941,-0.316957,-0.129278},{0.388671,0.00273937,0.330277},{0.0718672,-0.0904262,0.213121},{0.0928513,-0.312574,0.213095},{0.0484546,0.251097,-0.522902},{0.0447417,0.575007,-0.0364518},{-0.308589,0.00523944,-0.293056}}; a = Flatten[Table[Table[p[[i]], Length[p]], {i, Length[p]}], 1]; b = Flatten[Table[p, Length[p]], 1]; l = Transpose[{a,b}]; Graphics3D[{Black, Specularity[White, 10], Opacity[0.2], Sphere[p, 0.05], Thickness[0.01], CapForm["Butt"], RGBColor[255,192,0], Opacity[0.9], Line[l]}, PlotRange -> {{-.6,.6},{-.6,.6},{-.6,.6}}, Boxed -> False] o = Mean[p]; p = p - Table[o, Length[p]]; G = p . Transpose[p]; e = Eigenvectors[N[G], 2]; v = Eigenvalues[N[G], 2] q = Transpose[DiagonalMatrix[v] . e]; Graphics[{Black, PointSize[0.05], Point[q]}, PlotRange -> {{-.6,.6},{-.6,.6},{-.6,.6}}, Boxed -> False]

修改最後一步。點積矩陣，保留前k大的特徵值們，其餘歸零。特徵分解的右半邊√ΛEᵀ，即是k維數據矩陣。

「low-rank matrix approximation」的最佳解是奇異值分解。點積矩陣是對稱半正定矩陣，於是奇異值分解等同特徵分解。

降維對象是點積矩陣。為何不是距離矩陣呢？這是一個謎，等你發表論文。先中心化再低秩，先低秩再中心化，兩者結果應該不同。

multidimensional scaling

「多維度縮放」。已知原始數據，求得降維數據，盡量保持原本距離。

求解步驟較少，不必求得距離矩陣、點積矩陣。

數據矩陣中心化。數據矩陣，保留前k大的奇異值們，其餘歸零。奇異值分解的右半邊ΣVᵀ，即是k維數據矩陣。

XᵀX即是點積矩陣。XᵀX的特徵向量，即是X的右奇異向量。XᵀX的特徵值開根號，即是X的奇異值。√ΛEᵀ = ΣVᵀ。

graph Laplacian analysis

楔子

PCoA：已知兩兩距離，求得數據。

GLA：盡量縮短兩兩距離，求得數據。

graph Laplacian analysis【尚無正式名稱】

「圖梯散分析」。製造大量數據，兩兩距離平方總和盡量小。

設計adjacency matrix，控制哪些距離需要納入計算。為了不讓數據集中於一點，必須追加限制條件，例如自訂部分數據座標。

adjacency matrix

「相鄰矩陣」。請見本站文件「adjacency matrix」。

兩點有關，邊為1。兩點無關，邊為0。

相鄰矩陣是對稱矩陣。

兩兩距離平方總和

兩兩距離平方總和。

 sum ‖pᵢ - pⱼ‖²
(i,j)

兩兩距離平方總和盡量小。

min sum ‖pᵢ - pⱼ‖²
 P (i,j)

引入adjacency matrix，只考慮部分的兩兩距離。

min sum Aᵢⱼ ‖pᵢ - pⱼ‖²
 P (i,j)

一個距離平方，可以拆解成各維距離平方。各維各自統計距離平方，各維各自最佳化，結果仍相同。多維問題等價於多個一維問題。

min sum Aᵢⱼ ‖xᵢ - xⱼ‖²   +   min sum Aᵢⱼ ‖yᵢ - yⱼ‖²
 x (i,j)                      y (i,j)

Laplacian matrix

「梯散矩陣」。請見本站文件「Laplacian matrix」。

自身減鄰點，通通加總。

點相減，作為邊。各點鄰邊和Lx。所有邊平方和xᵀLx。

梯散矩陣L＝邊數矩陣D－相鄰矩陣A。

梯散矩陣是對稱半正定矩陣。

一維兩兩距離平方總和

一維兩兩距離平方總和，可以改寫成二次型xᵀLx。

點的數值，設定為座標。

 sum Aᵢⱼ ‖xᵢ - xⱼ‖² = xᵀLx
(i,j)

一維兩兩距離平方總和盡量小。

L是對稱半正定矩陣，xᵀLx的函數圖形是開口向上的拋物面，擁有最小值。

min sum Aᵢⱼ ‖xᵢ - xⱼ‖² = min xᵀLx
 x (i,j)                  x

高維兩兩距離平方總和

計算過程習慣分解成一維版本。數學式子習慣寫成高維版本。

高維兩兩距離平方總和，可以改寫成矩陣運算。

1D             | KD
---------------|---------------------
x              | X
Lx             | LXᵀ
xᵀLx           | XLXᵀ
solve Lx = 0   | solve LXᵀ = 0
minimize xᵀLx  | minimize tr(XLXᵀ)

演算法

一維兩兩距離平方總和盡量小。可以改寫成二次型最佳化。

該二次型稱為Dirichlet energy。

minimize xᵀLx

極值位於一次微分等於零的地方。可以改寫成一次方程組求解。

該一次方程組稱為Laplace equation。

solve Lx = 0

極值位於最小的特徵值的特徵向量。可以改寫成特徵分解。

其特徵值稱為Laplacian spectrum。

L = EΛEᵀ

演算法共三類：二次型最佳化、一次方程組求解、特徵分解。

演算法：二次型最佳化

目標函數：一維兩兩距離平方總和盡量小。

minimize f(x)    where f(x) = sum Aᵢⱼ ‖xᵢ - xⱼ‖² = xᵀLx

追加限制條件：自訂部分數據座標。

minimize f(x)   subject to x₀ = c₀, x₁ = c₁, ...

或者也可以追加函數。

minimize f(x) + λ g(x)

目標函數，分別對每筆數據偏微分，得到梯度。

        ⎡ ∂/∂x₀ sum Aᵢⱼ ‖xᵢ - xⱼ‖² ⎤
f′(x) = ⎢ ∂/∂x₁ sum Aᵢⱼ ‖xᵢ - xⱼ‖² ⎥
        ⎣            :             ⎦

目標函數，改寫成二次型，對向量微分，得到梯度。結果一樣。

f′(x) = (L + Lᵀ)x = 2Lx

演算法一覽。

最佳化：梯度下降法。
二次型最佳化：共軛梯度法。

演算法（gradient descent）

「梯度下降法」。請見本站文件「地面勘查類型」。

自訂初始位置。自訂步伐大小。係數2可以併入步伐大小。

x_next = x - step ⋅ 2Lx

改寫成不動點遞推法，以判斷是否收斂至最佳解。

x_next = (I - step ⋅ 2L)x

視作特徵向量演算法power iteration。

當step足夠小，則(I - step ⋅ 2L)是對稱正定矩陣，則收斂。

對稱正定矩陣，存在N個實數特徵向量，足以支配整個空間。任意初始向量（除了零向量）必定趨近最大的特徵值的特徵向量。

gradient descent：各座標同時移動。
coordinate descent：各座標輪流移動。

演算法（conjugate gradient method）

「共軛梯度法」。請見本站文件「quadratic optimization」。

實務上最快的演算法。N步收斂至最佳解。調整誤差容許範圍，提早結束演算法。

甚至追加外掛，採用multigrid preconditioned conjugate gradient method。我沒有仔細讀懂，有勞各位自立自強。

《Efficient Preconditioning of Laplacian Matrices for Computer Graphics》

const int N = 10;
float x[N], y[N];				// 2D data
bool known[N];					// knowns or unknowns

const int B = 5;
int boundary[B] = {2,3,6,8,9};	// knowns

struct Edge {int target; float weight;};
vector<Edge> adj[N];			// adjacency lists A
float wsum[N];					// degree matrix D

float b[N], r[N], d[N], Ld[N];	// conjugate gradient

void conjugate_gradient(float x[], float b[])
{
	const float ε = 1e-6;	// 精確度

float rr = 0;
	for (int i=0; i<N; ++i) if (!known[i])
	{
		x[i] = 0;
		d[i] = r[i] = b[i];
		rr += r[i] * r[i];
	}
	if (rr < ε) return;

for (int t=0; t<N-B; t++)
	{
		float dLd = 0;
		for (int i=0; i<N; ++i) if (!known[i])
		{
			float sum = 0;
			for (int k=0; k<adj[i].size(); ++k)
				if (!known[adj[i][k].target])
					sum += d[adj[i][k].target]
					     * adj[i][k].weight;
			Ld[i] = d[i] * wsum[i] - sum;
			dLd += d[i] * Ld[i];
		}
		float alpha = rr / dLd;
		float rrnew = 0;
		for (int i=0; i<N; ++i) if (!known[i])
		{
			x[i] += alpha * d[i];
			r[i] -= alpha * Ld[i];
			rrnew += r[i] * r[i];
		}
		if (rrnew < ε) return;
		float beta = rrnew / rr;
		for (int i=0; i<N; ++i) if (!known[i])
		{
			d[i] = r[i] + beta * d[i];
		}
		rr = rrnew;
	}
}

void constant(float x[], float b[])
{
	for (int i=0; i<N; ++i) if (!known[i])
	{
		b[i] = 0;
		for (int k=0; k<adj[i].size(); ++k)
			if (known[adj[i][k].target])
				b[i] += x[adj[i][k].target]
					  * adj[i][k].weight;
	}
}

void GLA()
{
	// adjacency lists A
	for (int i, j; cin >> i >> j; )
	{
		adj[i].push_back((Edge){j,1});
		adj[j].push_back((Edge){i,1});
	}

// degree matrix D
	for (int i=0; i<N; ++i)
	{
		wsum[i] = 0;
		for (int k=0; k<adj[i].size(); ++k)
			wsum[i] += adj[i][k].weight;
	}

// initial solution of Lx = 0
	for (int i=0; i<N; ++i)
	{
		x[i] = 0;
		y[i] = 0;
		known[i] = false;
	}

// 追加限制條件：已知部分數據在單位圓上等距排列
//	int boundary[B] = {2, 3, 6, 8, 9};
	float π = acos(0) * 2;
	for (int i=0; i<B; ++i)
	{
		float θ = 2.0 * π * i / B;
		x[boundary[i]] = cos(θ);
		y[boundary[i]] = sin(θ);
		known[boundary[i]] = true;
	}

// 各維度各自求解
	constant(x, b);
	conjugate_gradient(x, b);
	constant(y, b);
	conjugate_gradient(y, b);

// 印出數據
	for (int i=0; i<N; ++i)
		cout << '(' << x[i] << ',' << y[i] << ')';
}

演算法：一次方程組求解

目標函數，分別對每筆數據偏微分，使之為零。

⎧ ∂/∂x₀ sum Aᵢⱼ ‖xᵢ - xⱼ‖² = 0
⎨ ∂/∂x₁ sum Aᵢⱼ ‖xᵢ - xⱼ‖² = 0
⎩            :               :

目標函數，改寫成二次型，對向量微分，使之為零。結果一樣。

solve 2Lx = 0

係數2可以消去。等號兩邊同乘1/2。

solve Lx = 0

追加限制條件：自訂部分數據座標。

solve Lx = 0   subject to x₀ = c₀, x₁ = c₁, ...

已知數移項併入常數項，矩陣尺寸縮小，形成新的方程組。

solve ⎡ L₀₀ L₀₁ ⎤ ⎡ c ⎤ = ⎡ 0 ⎤
      ⎣ L₁₀ L₁₁ ⎦ ⎣ x ⎦   ⎣ 0 ⎦
solve L₀₀ c + L₀₁ x = 0
solve L₀₁ x = - L₀₀ c

演算法一覽。

矩陣求解：高斯消去法。
對稱半正定矩陣求解：Cholesky decomposition反向代入。
對角優勢矩陣求解：不動點遞推法、鬆弛法。（宛如梯度下降法）
對稱對角優勢矩陣求解：生成樹。（僅有理論上的價值，沒有實務上的價值。）
微分方程式求解：歐拉法。

演算法（Richardson iteration）

「不動點遞推法」。請見本站文件「root finding」。

梯度下降法與不動點遞推法的差異，-step⋅2L改成了+α⋅L。

x_next = x + α ⋅ (Lx - 0)
  = x + α ⋅ Lx

演算法（Jacobi iteration）

「雅可比法」。請見本站文件「rexalation」。

梯度下降法與雅可比法的差異，step⋅2L改成了D⁻¹L。

x_next = D⁻¹ [0 - (L-D)x]
  = D⁻¹Ax
  = D⁻¹(D - L)x
  = D⁻¹Dx - D⁻¹Lx
  = x - D⁻¹Lx

Jacobi iteration：以舊值算新值，需要兩條陣列。
Gauss–Seidel iteration：立即使用新值，只需要一條陣列。
symmetric Gauss–Seidel iteration：
修改了計算順序，原本是每回合從頭到尾，改成了頭尾往返。
新值連貫，待命時間更少，收斂速度更快。
此處的Symmetric，是指頭尾往返，不是指對稱矩陣。
SOR：新值與舊值，調整比重，浮報新值份量，漏報舊值份量。

const int N = 10;
float x[N], y[N];		// 2D data

const int B = 5;		// 已知5筆數據座標
int boundary[B];		// 編號
bool known[N];			// 是否為已知數值

struct Edge {int target; float weight;};
vector<Edge> adj[N];	// adjacency lists A
float wsum[N];			// degree matrix D

void gauss_seidel()
{
	// adjacency lists A
	for (int i, j; cin >> i >> j; )
	{
		adj[i].push_back((Edge){j,1});
		adj[j].push_back((Edge){i,1});
	}

// degree matrix D
	for (int i=0; i<N; ++i)
	{
		wsum[i] = 0;
		for (int k=0; k<adj[i].size(); ++k)
			wsum[i] += adj[i][k].weight;
	}

// initial solution of Lx = 0
	for (int i=0; i<N; ++i)
	{
		x[i] = 0;
		y[i] = 0;
		known[i] = false;
	}

// 追加限制條件：已知一部分的點在單位圓上等距排列
	const float π = acos(0) * 2;
	for (int i=0; i<B; ++i)
	{
		float θ = 2.0 * π * i / B;
		x[boundary[i]] = cos(θ);
		y[boundary[i]] = sin(θ);
		known[boundary[i]] = true;
	}

// Gauss–Seidel iteration
	// solve Lx = 0
	const float ε = 1e-6;	// 精確度
	for (int t=0; t<1000; ++t)
	{
		float error = 0;
		for (int i=0; i<N; ++i)
		{
			if (known[i]) continue;

float xsum = 0, ysum = 0;
			for (int k=0; k<adj[i].size(); ++k)
			{
				int j = adj[i][k].target;
				xsum += adj[i][k].weight * x[j];
				ysum += adj[i][k].weight * y[j];
			}

float xnew = xsum / wsum[i];
			float ynew = ysum / wsum[i];
			error += fabs(xnew - x[i]);
			error += fabs(ynew - y[i]);
			x[i] = xnew;
			y[i] = ynew;
		}
		if (error < ε) break;
	}
}

演算法（Spielman–Teng algorithm）

運用生成樹切割矩陣、決定計算順序。我沒有仔細讀懂，有勞各位自立自強。

時間複雜度極低，實際執行時間極高。僅有理論上的價值，沒有實務上的價值。

Spielman–Teng algorithm：最初版本。
KOSZ algorithm：時間複雜度更低。

https://sites.google.com/a/yale.edu/laplacian/
https://cs.uwaterloo.ca/~lapchi/cs270/notes/L27.pdf
http://appsrv.cse.cuhk.edu.hk/~chi/csc5160/notes/L13.pdf
https://arxiv.org/abs/1502.07888

《Nearly-Linear Time Algorithms for Preconditioning and Solving Symmetric, Diagonally Dominant Linear Systems》

演算法（Euler method）

「歐拉法」。請見本站文件「differential equation」。

Laplace equation改成diffusion equation。Lx = 0改成-Lx = d/dt x。

令d/dt x = 0，得到原式Lx = 0。令x隨著時間流逝逐漸收斂至定值，使得「-Lx = d/dt x的收斂結果」等於「Lx = 0的解」。

引入時間變數，將問題化作微分方程式求解，採用歐拉法。

梯度下降法與歐拉法的差異，step⋅2L改成了Δt⋅L。

explicit Euler method：取舊值。
(x_next - x) / Δt = -Lx
x_next = x - Δt⋅Lx
x_next = (I - Δt⋅L)x

implicit Euler method：取新值。
(x_next - x) / Δt = -Lx_next
x_next = (I + Δt⋅L)⁻¹x

不想煩惱步伐大小、想要保證收斂，代價是預先計算反矩陣。

explicit Euler method：(I - Δt⋅L)當Δt足夠小才是對稱正定矩陣。
implicit Euler method：(I + Δt⋅L)⁻¹是對稱正定矩陣。必定收斂。

與其以反矩陣(I + Δt⋅L)⁻¹遞推，不如直接以反矩陣L₀₁⁻¹求解。就當作是學個想法吧。

Laplacian smoothing / diffusion

「梯散平滑化」。每一點賦值為鄰點平均數。

各點鄰點和Ax。各點鄰點平均D⁻¹Ax。

x_next = D⁻¹Ax

亦得解釋成每一點減去鄰邊平均數。邊是兩點差距。

各點鄰邊和Lx。各點鄰邊平均D⁻¹Lx。

x_next = x - D⁻¹Lx;

「擴散」。每一點移動一步，根據鄰邊平均數多寡。自訂擴散率，調整移動量。當擴散率是1，擴散即是梯散平滑化。

x_next = x - rate ⋅ D⁻¹Lx;

梯度下降法、不動點遞推法、鬆弛法、歐拉法，皆是擴散。各點擴散率不同，各點擴散次序不同。

minimize xᵀLx           Dirichlet energy minimization
solve Lx = 0            Laplace equation
x_next = x + α ⋅ Lx       Richardson iteration
x_next = x - D⁻¹Lx        Jacobi iteration
x_next = x - step ⋅ 2Lx   gradient descent
x_next = x - Δt⋅Lx        explicit Euler method

擴散讓相鄰距離逐漸均勻、讓兩兩距離總和逐漸變小。

GLA的精髓，就是擴散！儘管最快的演算法不是擴散，而是共軛梯度法。

引入權重

一、權重：adjacency matrix可以引入非負權重。

兩兩距離，調整比重。權重大，引力強，擴散後，距離近。

L = D - A   where A is weighted adjacency matrix
                  D is weight sum

二、正規化：各邊除以鄰邊總和（或者數量，當權重為1）。

擴散時，剛好走到鄰點的加權平均數，避免鄰點較多而走較遠。

橫條正規化（非對稱矩陣）　　 D⁻¹L        = I - D⁻¹A
橫條暨直條正規化（對稱矩陣） √D⁻¹L√D⁻¹   = I - √D⁻¹A√D⁻¹

三、擴散無效化：給定數據，求得權重，使得處處梯散為零。

這樣的權重，性質與用途皆不明。等你發表論文。

類似概念出現於locally linear embedding。

given x, find A, such that Lx = 0.

演算法：特徵分解

L是對稱半正定矩陣，xᵀLx的最小值是0，位於最小的特徵值0的特徵向量[1,1,1,...]ᵀ。

最後求得數據x = [k,k,k,...]ᵀ，k是任意數。數據座標均等，集中於一點。

最小值缺乏討論意義，改為討論次小值。又為了避免各維座標均等，改為討論前d個次小值，d是維度。

梯散矩陣，保留前d個次小的特徵值們，其餘歸零。特徵分解L = EΛEᵀ右半邊√ΛEᵀ，即是d維數據矩陣。

另外，梯散矩陣等於關聯矩陣的外積。L = MMᵀ。

關聯矩陣，保留前d個次小的奇異值們，其餘歸零。奇異值分解M = UΣVᵀ左半邊UΣ，即是d維數據矩陣。

【尚無正式名稱】

給定原數據，產生新數據，兩兩相對位置盡量相同。

設計adjacency matrix，控制哪些相對位置需要納入計算。為了讓新數據有所改變，必須追加限制條件，例如自訂部分數據座標。

兩兩向量差異平方總和盡量小。

min sum ‖(pᵢ - pⱼ) - (p̕ᵢ - p̕ⱼ)‖²
 P̕ (i,j)

引入adjacency matrix，只考慮部分的兩兩向量。

min sum Aᵢⱼ ‖(pᵢ - pⱼ) - (p̕ᵢ - p̕ⱼ)‖²
 P̕ (i,j)

多維問題等價於多個一維問題。

  min sum Aᵢⱼ ‖(xᵢ - xⱼ) - (x̕ᵢ - x̕ⱼ)‖²
   x̕ (i,j)
+ min sum Aᵢⱼ ‖(yᵢ - yⱼ) - (y̕ᵢ - y̕ⱼ)‖²
   y̕ (i,j)

一維兩兩向量差異平方總和，可以改寫成二次函數。

  sum Aᵢⱼ ‖(xᵢ - xⱼ) - (x̕ᵢ - x̕ⱼ)‖²
= sum Aᵢⱼ ‖(xᵢ - x̕ᵢ) - (xⱼ - x̕ⱼ)‖²
= (x-x̕)ᵀL(x-x̕)
= xᵀLx - 2xᵀLx̕ + x̕ᵀLx̕

一維兩兩向量差異平方總和盡量小，可以改寫成二次最佳化。

  min sum Aᵢⱼ ‖(xᵢ - xⱼ) - (x̕ᵢ - x̕ⱼ)‖²
= min sum Aᵢⱼ ‖(xᵢ - x̕ᵢ) - (xⱼ - x̕ⱼ)‖²
= min (x-x̕)ᵀL(x-x̕)
= min xᵀLx - 2xᵀLx̕ + x̕ᵀLx̕
= min x̕ᵀLx̕ - 2bᵀx̕ + c     where b = Lx, c = xᵀLx

極值位於一次微分等於零的地方。可以改寫成一次方程組求解。

該一次方程組稱為Poisson equation。

solve Lx̕ = Lx

二次最佳化，無法使用特徵分解求得極值。

經典應用

drawing：數據是點座標。盡量均勻。

embedding：數據是點座標。降低維度，盡量均勻攤平。

deformation：數據是點座標。先後形狀盡量相同。

blending：數據是像素值。先後梯度盡量相同。

principal component analysis

「主成分分析」。大量數據之中，嘗試找到一條過原點直線，數據們投影到直線，數據們到原點的距離平方總和盡量大。這條直線稱作「主成分」，通常只有一條。

寫成數學式子，恰是二次型最佳化。

argmax ∑ ‖proj pᵢ‖²   subject to ‖v‖² = 1   距離平方總和
   ᵛ   ⁱ    ᵛ
argmax ∑ ‖pᵢ∙v‖²      subject to ‖v‖² = 1   投影＝點積（直線向量長度為一）
   ᵛ   ⁱ
argmax ∑ ‖pᵢᵀv‖²      subject to ‖v‖² = 1   點積＝矩陣轉置相乘
   ᵛ   ⁱ
argmax ‖Xᵀv‖²         subject to ‖v‖² = 1   數據們合併成一個大矩陣
   ᵛ
argmax (Xᵀv)ᵀ(Xᵀv)    subject to ‖v‖² = 1   距離平方＝點積＝矩陣轉置相乘
   ᵛ
argmax (vᵀX)(Xᵀv)     subject to ‖v‖² = 1   轉置公式
   ᵛ
argmax vᵀ(XXᵀ)v       subject to ‖v‖² = 1   二次型最佳化
   ᵛ

最大值位於XXᵀ最大的特徵值的特徵向量。

argmax vᵀXXᵀv         subject to vᵀv = 1    距離平方＝點積＝矩陣轉置相乘
   ᵛ
argmax vᵀXXᵀv - λ(vᵀv - 1)                  拉格朗日乘數
   ᵛ
solve XXᵀv - λv = 0                         一次微分等於零的地方是極值

solve XXᵀv = λv                             特徵值暨特徵向量

數據減去平均數

大家總是讓主成分穿過數據中心。預先將數據減去平均數，將數據中心挪至原點；再實施主成分分析，就能讓主成分穿過數據中心。

「主成分分析」。大量數據之中，嘗試找到一條直線穿過數據中心，數據們投影到直線，數據們到數據中心的距離平方的平均盡量大。這條直線稱作「主成分」，通常只有一條。

主成分互相垂直

XXᵀ是對稱半正定矩陣，特徵向量互相垂直，特徵值皆是正數或零。二次型最佳化，駐點位於各個特徵向量，駐點高低順序就是特徵值大小順序。

主成分（極值）：最大的特徵值的特徵向量。

主要與次要的主成分（駐點）：各個特徵向量，而且互相垂直。

方便起見，一律叫做主成分。D維資料頂多有D個主成分。大家習慣找前幾大的主成分，其特徵值由大到小排序。

主成分可能一樣大，其特徵值一樣大，那麼這些主成分構成的平面、空間、……當中的任何一個向量，都是主成分。然而實務上不會遇到這種情況。

幾何特性

一、散開性：數據投影到主成分之後，長度平方總和，第一主成分最大，第二主成分次大（須垂直於先前主成分），……。

也就是說，主成分的方向，就是數據最散開的方向。

二、散開性：數據投影到主成分空間之後，長度平方總和最大。

也就是說，主成分所在位置，就是數據最散開的方向。

三、聚合性：數據投影到主成分之時，距離平方總和，第一主成分最小，第二主成分次小（須垂直於先前主成分），……。

也就是說，主成分的垂直方向，就是數據最聚合的方向。

直線擬合必然穿過數據中心，主成分必須穿過數據中心，因此主成分正是直線擬合！

四、聚合性：數據投影到主成分空間之時，距離平方總和最小。

也就是說，主成分所在位置，令數據投影之後的失真最少。

平面擬合必然穿過數據中心，主成分必須穿過數據中心，因此主成分正是平面擬合！

一二與三四是互補的，形成勾股定理。

已知斜邊平方（數據長度平方和），使得一股平方（投影後長度平方和）盡量大、另一股平方（投影時距離平方和）盡量小。

數學證明

散開性。投影之後，長度平方總和最大：

max ∑ ‖proj pᵢ - (1/n) ∑ proj pⱼ‖²      subject to ‖v‖² = 1
 ᵛ  ⁱ    ᵛ             ʲ   ᵛ
max ∑ ‖proj pᵢ‖²                        subject to ‖v‖² = 1
 ᵛ  ⁱ    ᵛ
max ∑ ‖pᵢ∙v‖²                           subject to ‖v‖² = 1
 ᵛ  ⁱ
max ∑ ‖pᵢᵀv‖²                           subject to ‖v‖² = 1
 ᵛ  ⁱ
max ‖Xᵀv‖²                              subject to ‖v‖² = 1
 ᵛ
max (vᵀX)(Xᵀv)                          subject to ‖v‖² = 1
 ᵛ
max vᵀ(XXᵀ)v                            subject to ‖v‖² = 1
 ᵛ
XXᵀ最大的特徵值暨特徵向量就是正解。

聚合性。投影之時，距離平方總和最小：

min ∑ ‖pᵢ - proj pᵢ‖²                   subject to ‖v‖² = 1
 ᵛ  ⁱ         ᵛ
min ∑ ‖pᵢ - (pᵢ∙v) v‖²                  subject to ‖v‖² = 1
 ᵛ  ⁱ
min ∑ ‖pᵢ‖² - 2 ‖pᵢ∙v‖² + ‖pᵢ∙v‖²‖v‖²   subject to ‖v‖² = 1
 ᵛ  ⁱ
min ∑ ‖pᵢ‖² - ‖pᵢ∙v‖²                   subject to ‖v‖² = 1
 ᵛ  ⁱ
min ∑ - ‖pᵢ∙v‖²                         subject to ‖v‖² = 1
 ᵛ  ⁱ
max ∑ ‖pᵢ∙v‖²                           subject to ‖v‖² = 1
 ᵛ  ⁱ
XXᵀ最大的特徵值暨特徵向量就是正解。

精髓

已知數據投影到X軸、Y軸、……的長度，求得數據投影到主成分的長度。長度平方總和盡量大。

從不同角度看數據，時聚時散。不斷滾動數據，重新找一個視角，讓數據看起來最散開。注意到，是聚散，不是寬窄。

演算法（NIPALS）（nonlinear iterative partial least squares）

演算法全名軂軂長，原因是作者的思路是一次迴歸、多變量最佳化、反矩陣，不是變異數、二次型最佳化、特徵向量。演算法縮寫多了個A，原因是多了個母音比較好念。

XXᵀ的特徵向量演算法。

找到主成分、消滅該維度，不斷遞迴下去。

找到主成分：共變異矩陣XXᵀ，最大的特徵值的特徵向量。

消滅該維度：全體數據垂直投影，沿著當前主成分方向。

power iteration求特徵向量，Hotelling deflation做垂直投影。

不預先計算XXᵀ。power iteration改成先乘Xᵀ、再乘X。Hotelling deflation改成對X做。當遞推次數遠小於數據數量，可節省時間。

principal component analysis

correlation matrix

「共相關矩陣」。儲存兩兩共相關數，元素Aᵢⱼ是i物件與j物件的共相關數。兩個向量的共相關數通常定義為點積。

      ⎡ x₀∙y₀ x₀∙y₁ x₀∙y₂ x₀∙y₃ ... ⎤
      ⎢ x₁∙y₀ x₁∙y₁ x₁∙y₂ x₁∙y₃ ... ⎥
R_XY = ⎢ x₂∙y₀ x₂∙y₁ x₂∙y₂ x₂∙y₃ ... ⎥
      ⎢ x₃∙y₀ x₃∙y₁ x₃∙y₂ x₃∙y₃ ... ⎥
      ⎣   :     :     :     :       ⎦

共相關矩陣有兩種版本：數據兩兩點積XᵀY、維度兩兩點積XYᵀ。大家習慣採用維度兩兩點積XYᵀ。數據數量相等，方可點積。

    ⎡ |  |     ⎤        ⎡          ⎤⎡    |     ⎤   ⎡     :     ⎤
X = ⎢ p₀ p₁ .. ⎥  XᵀY = ⎢ —— pᵢ —— ⎥⎢    qⱼ    ⎥ = ⎢.. pᵢ∙qⱼ ..⎥
    ⎣ |  |     ⎦        ⎣          ⎦⎣    |     ⎦   ⎣     :     ⎦

    ⎡ —— d₀ —— ⎤        ⎡          ⎤⎡    |     ⎤   ⎡     :     ⎤
X = ⎢ —— d₁ —— ⎥  XYᵀ = ⎢ —— dᵢ —— ⎥⎢    eⱼ    ⎥ = ⎢.. dᵢ∙eⱼ ..⎥
    ⎣    :     ⎦        ⎣          ⎦⎣    |     ⎦   ⎣     :     ⎦

共相關矩陣細分為互相關矩陣XYᵀ、自相關矩陣XXᵀ。

cross-correlation matrix：互相關矩陣。相異數據集的相關矩陣。XYᵀ。
autocorrelation matrix：自相關矩陣。相同數據集的相關矩陣。XXᵀ。

預先將數據中心化，則形成互變異矩陣(X-X̄)(Y-Ȳ)ᵀ、自變異矩陣(X-X̄)(X-X̄)ᵀ。

cross-covariance matrix：互變異矩陣。(X-X̄)(Y-Ȳ)ᵀ。
autocovariance matrix：自變異矩陣。(X-X̄)(X-X̄)ᵀ。

partial least squares regression

「偏最小平方迴歸」。兩堆數據的共相關數。

大家習慣預先將數據中心化。互變異矩陣的奇異值分解。

兩堆數據之中，分別找到一條直線穿過數據中心，數據們投影到直線，數據們到原點的距離，兩邊點積盡量大。

正確答案：最大的奇異值的左奇異向量，最大的奇異值的右奇異向量。點積結果是最大的奇異值，作為共相關數。

數據編號一旦改變，計算結果跟著改變。「偏最小平方迴歸」並不穩重成熟。

principal component analysis

「主成分分析」。兩堆相同數據的共相關數。

大家習慣預先將數據中心化。自變異矩陣的奇異值分解。

自變異矩陣是對稱半正定矩陣，奇異值分解等同特徵分解。

點積結果是最大的特徵值，即是距離平方總和，作為共相關數。

數據編號即使改變，計算結果依然不變！

精髓

GLA：已知點邊關係們M，求得一維數據x（點座標），讓共相關矩陣MMᵀ和xxᵀ的點積盡量小。

minimize xᵀLx   subject to ‖x‖² = 1

  xᵀLx = xᵀMMᵀx = (MMᵀ)∙(xxᵀ)
= (d₁∙d₁)(x₁x₁) + (d₁∙d₂)(x₁x₂) + (d₁∙d₃)(x₁x₃) + ...

PCA：已知高維數據們X，求得一維向量v（主成分），讓共相關矩陣XXᵀ和vvᵀ的點積盡量大。

maximize vᵀXXᵀv   subject to ‖v‖² = 1

  vᵀCv = vᵀXXᵀv = (XXᵀ)∙(vvᵀ)
= (d₁∙d₁)(v₁v₁) + (d₁∙d₂)(v₁v₂) + (d₁∙d₃)(v₁v₃) + ...

principal component analysis

楔子

GLA：數據到數據的距離平方總和盡量小。為免單調乏味，引入「adjacency matrix」以操作距離。最後將數據扯緊調勻。

PCA：數據到數據中心的距離平方總和盡量大。為免單調乏味，引入「投影到直線」以操作距離。最後將數據搓圓擺正。

principal component analysis

Y = AX。已知數據X，求新數據Y、求轉換矩陣A。

YYᵀ = I。令新數據Y的維度是正規正交：相同維度的點積是1，相異維度的點積是0。既是單位向量、又互相垂直。

一個維度視作一個向量；兩個向量的點積，得到一個值；所有兩兩向量的點積，排列成矩陣。

數據減去平均數

當X的中心（平均數）位於原點，則Y的中心也將位於原點。

大家總是預先將X減去平均數，將X的中心挪至原點。好處是：一、降低數值範圍，以減少浮點數運算誤差。二、具備直線擬合效果。三、這樣才是標準的主成分分析。

推導過程

⎰ Y = AX
⎱ YYᵀ = I
given X. find A and Y.
                       ________________________________________ 
YYᵀ             = I   | XXᵀ is a real matrix.                  |
AX(AX)ᵀ         = I   | XXᵀ is a square matrix.                |
AXXᵀAᵀ          = I   | XXᵀ is a symmetric matrix.             |
A(XXᵀ)Aᵀ        = I   | XXᵀ is a positive semidefinite matrix. |
A(EΛE⁻¹)Aᵀ      = I   | XXᵀ has real non-negative eigenvalues. |
A(E√Λ)(√ΛE⁻¹)Aᵀ = I   | XXᵀ has orthonormal eigenbasis.        |
A = √Λ⁻¹E⁻¹           | let XXᵀ = EΛE⁻¹ (E⁻¹ = Eᵀ)             |
A = √Λ⁻¹Eᵀ             ‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾

XXᵀ是實數對稱半正定矩陣，得以實施特徵分解。

E是特徵向量們（特徵基底），恰為正規正交矩陣，其轉置矩陣恰為反矩陣。而且都是實數。

Λ是特徵值們，恰為對角矩陣。而且都是實數、都非負數。

欲求A，就想辦法讓A和Aᵀ能夠抵消EΛEᵀ，使之成為I。特徵基底求反矩陣，特徵值先開根號再求倒數，如此就湊出了A。

欲求Y，只消計算AX。

幾何意義

PCA找到了全新的垂直座標軸：原點是數據中心、座標軸是特徵基底、座標軸單位長度是特徵值平方根。

所有數據一齊平移、旋轉（與鏡射）、縮放（與鏡射）。

一、平移：數據中心平移至原點。

二、旋轉：以特徵基底，逆向旋轉數據。E⁻¹。

三、縮放：各維度除以各特徵值平方根。√Λ⁻¹。

正確答案不只一種。特徵向量（連同特徵值）對調次序，效果是鏡射暨旋轉。特徵向量顛倒方向、特徵值變號，效果是鏡射。

正確答案的左邊乘上任意的正規正交矩陣，效果是旋轉與鏡射，仍是正確答案。但由於這類答案並不實用，大家總是無視這類答案。

low-rank principal component analysis

「低秩主成分分析」。降低數據維度，盡量保持原本距離。

PCA找到了一組新的垂直座標軸，而low-rank PCA僅保留了特徵值較大的座標軸。

所有數據一齊平移、投影（與鏡射）、縮放（與鏡射）。

因為捨棄了一些座標軸，所以旋轉必須重新解讀為投影：數據投影至僅存的特徵基底。

p = RandomVariate[MultinormalDistribution[{0,0,0}, {{3,1,1},{1,2,1},{1,1,1}}], 12] / 3; ListPointPlot3D[p, PlotStyle -> PointSize[Large], BoxRatios->{1,1,1}]; p = {{-0.0561955,-0.00847422,0.453698},{-0.334564,-0.272408,-0.238724},{-0.567886,0.0607641,0.265588},{0.502573,-0.344719,-0.296151},{0.19767,0.450711,0.0407837},{-0.0795941,-0.316957,-0.129278},{0.388671,0.00273937,0.330277},{0.0718672,-0.0904262,0.213121},{0.0928513,-0.312574,0.213095},{0.0484546,0.251097,-0.522902},{0.0447417,0.575007,-0.0364518},{-0.308589,0.00523944,-0.293056}}; o = Mean[p]; p = p - Table[o, Length[p]]; e = Eigenvectors[N[Transpose[p] . p]]; e1 = InfiniteLine[o, e[[1,All]]]; e2 = InfiniteLine[o, e[[2,All]]]; normal = e[[3,All]]; q = p - (Dot[p, normal] * Table[normal, Length[p]]); l = Transpose[{p,q}]; pl = InfinitePlane[{0,0,0} , e[[1;;2,All]] ]; axis = {{{-2,0,0},{2,0,0}},{{0,-2,0},{0,2,0}},{{0,0,-2},{0,0,2}}}; Graphics3D[{Black, Thickness[0.015], Line[axis], Black, Specularity[White, 10], Sphere[p, 0.05], Thickness[0.025], CapForm["Butt"], RGBColor[255,192,0], Line[l], RGBColor[192,0,0], Opacity[0.5], EdgeForm[None], pl}, PlotRange -> {{-.6,.6},{-.6,.6},{-.6,.6}}, Boxed -> False] l = Transpose[{Table[o, Length[p]],q}]; Graphics3D[{Yellow, Specularity[Black, 10], Sphere[q, 0.05], Thickness[0.025], CapForm["Butt"], RGBColor[255,192,0], Line[l], RGBColor[192,80,77], e1, RGBColor[0,176,80], e2, RGBColor[192,0,0], Opacity[0.5], EdgeForm[None], pl}, PlotRange -> {{-.6,.6},{-.6,.6},{-.6,.6}}, Boxed -> False] r = Transpose[{Dot[p, e[[1,All]]], Dot[p, e[[2,All]]]}]; Graphics[{Black, PointSize[0.05], Point[r]}, PlotRange -> {{-.6,.6},{-.6,.6},{-.6,.6}}, Boxed -> False]

經典應用

whitening：實施PCA，平移、旋轉、縮放。將數據範圍大致調整成單位圓，方便比對數據。

統計學當中，計算結果要再乘以√n。或者計算時將XXᵀ改成XXᵀ/n。或者描述時將YYᵀ = I改成YYᵀ = nI。

orientation：實施PCA，平移、旋轉、略過縮放。功效是重設座標軸，擺正數據。

alignment：兩堆數據各自實施PCA，特徵值由大到小排序，特徵向量一一對應，得知數據對應關係。

embedding：實施low-rank PCA，捨棄小的特徵值暨特徵向量，只做投影。功效是降維、壓縮，而且是誤差最小的方式。

精髓

數據們實施仿射變換，挲圓調正，達成白化。

每個橫條的平均數都調成0，每個橫條的變異數都調成1/n，相異橫條的共相關數都調成0。

數學公式（eigendecomposition）

一、每筆數據減去其平均數。

二、求得維度之間（不是數據之間）的共變異矩陣。

三、共變異矩陣實施特徵分解。

X = {(1,2,3), (4,5,6), (5,0,4), (3,3,3), (7,5,9)}

    ⎡ 1 4 5 3 7 ⎤   ⎡ x₁ x₂ x₃ x₄ x₅ ⎤   ⎡ |  |  |  |  |  ⎤
X = ⎢ 2 5 0 3 5 ⎥ = ⎢ y₁ y₂ y₃ y₄ y₅ ⎥ = ⎢ p₁ p₂ p₃ p₄ p₅ ⎥
    ⎣ 3 6 4 3 9 ⎦   ⎣ z₁ z₂ z₃ z₄ z₅ ⎦   ⎣ |  |  |  |  |  ⎦

    ⎡ 4 4 4 4 4 ⎤
X̄ = ⎢ 3 3 3 3 3 ⎥
    ⎣ 5 5 5 5 5 ⎦

            ⎡           ⎤   ⎡ —— d₁ —— ⎤
X̃ = X - X̄ = ⎢   3 × 5   ⎥ = ⎢ —— d₂ —— ⎥
            ⎣           ⎦   ⎣ —— d₃ —— ⎦

       ⎡       ⎤   ⎡ d₁∙d₁ d₁∙d₂ d₁∙d₃ ⎤
X̃ X̃ᵀ = ⎢ 3 × 3 ⎥ = ⎢ d₂∙d₁ d₂∙d₂ d₂∙d₃ ⎥ = E Λ Eᵀ
       ⎣       ⎦   ⎣ d₃∙d₁ d₃∙d₁ d₃∙d₃ ⎦

    ⎡       ⎤       ⎡ λ₁ 0  0  ⎤
E = ⎢ 3 × 3 ⎥   Λ = ⎢ 0  λ₂ 0  ⎥
    ⎣       ⎦       ⎣ 0  0  λ₃ ⎦

              ⎡ 1/√λ₁   0     0   ⎤ ⎡       ⎤
A = √Λ⁻¹ Eᵀ = ⎢   0   1/√λ₂   0   ⎥ ⎢ 3 × 3 ⎥
              ⎣   0     0   1/√λ₃ ⎦ ⎣       ⎦

數學公式（singular value decomposition）

XXᵀ的特徵分解EΛEᵀ，等同X的奇異值分解UΣVᵀ其中一步。

XXᵀ的特徵值們開根號√Λ，等同X的奇異值們Σ。

XXᵀ的特徵向量們E，等同X的奇異向量們U。

X = UΣVᵀ
XXᵀ = UΣVᵀ(UΣVᵀ)ᵀ = UΣVᵀVΣᵀUᵀ = UΣΣᵀUᵀ = U(ΣΣᵀ)Uᵀ = EΛEᵀ
√Λ = Σ, E = U

以奇異值分解來詮釋PCA，簡潔直觀。

X = UΣVᵀ，恰巧Vᵀ的維度正規正交，即為所求。

令Vᵀ當作新數據Y = Vᵀ。

令剩下的UΣ移項，當作變換矩陣A = Σ⁻¹Uᵀ = √Λ⁻¹Eᵀ。

X = UΣVᵀ
UᵀX = ΣVᵀ     (U is orthonormal, thus U⁻¹ = Uᵀ)
Σ⁻¹UᵀX = Vᵀ
let A = Σ⁻¹Uᵀ, let Y = Vᵀ

演算法（EM-PCA）

E-step:  X = A⁺Y  = (A Aᵀ)⁻¹ Aᵀ Y
M-step:  A = Y X⁺ = X (XᵀX )⁻¹ Xᵀ

一開始建立隨機矩陣A，不斷遞推，直到收斂。

明明就是block coordinate descent，或者說是fixed-point iteration，結果卻是EM algorithm。

我不清楚這是否比奇異值分解來的快。

Laplacian principal component analysis

graph Laplacian analysis【尚無正式名稱】

數據兩兩距離平方總和盡量小。

然而正解缺乏討論意義：Y的元素通通相等。

minimize tr(YLYᵀ)
given L. find Y.

改為討論歪解：次小的特徵值的特徵向量們，作為Y的橫條。

由於特徵向量互相垂直，追加限制條件YYᵀ = I。

⎰ minimize tr(YLYᵀ)
⎱ YYᵀ = I
given L. find Y.

principal component analysis

數據到原點的距離平方總和盡量大。

改寫成數據的線性變換。

⎰ Y = AX
⎱ YYᵀ = I
given X. find A and Y.

Laplacian principal component analysis

Microsoft的專利。pen-pineapple-apple-pen。

⎧ minimize tr(YLYᵀ)                ⎧ minimize tr(AXLXᵀAᵀ)
⎨ Y = AX                           ⎨ Y = AX
⎩ YYᵀ = I                   --->   ⎩ AXXᵀAᵀ = I
given X and L. find A and Y.       given X and L. find A and Y.

兩種思路，答案好像不太一樣，我沒有仔細研究。

一、GLA視作主角：

首先實施PCA，使得XXᵀ = YYᵀ = AAᵀ = I。

然後XLXᵀ次小的特徵值的特徵向量們，作為A的橫條。再以A和X求得Y。

二、PCA視作主角：

正確答案的左邊乘上任意的正規正交矩陣，仍是正確答案。追加GLA，從中取得更對味的答案──所有點對距離盡量均勻。

PCA當中，正確答案們的點對距離完全一致，追加GLA沒有任何意義，多此一舉。low-rank PCA當中，追加GLA就有意義。

independent component analysis

楔子

PCA：數據實施仿射變換，成為不相關數據。

ICA：數據實施仿射變換，成為獨立數據。

independent component analysis

「獨立成分分析」。數據實施仿射變換，成為獨立數據。

然而，獨立相當嚴苛。一般數據無法透過仿射變換成為獨立數據。於是數學家想到兩種折衷方案。

一、特殊數據：給定數據是實施了某種仿射變換的獨立數據。

這種特殊數據，可以透過仿射變換（反向變換），成為獨立數據（恢復原貌）。

二、獨立程度：無法完全獨立，那就盡量獨立。設計指標，評估獨立程度，化作最佳化問題。

常見指標mutual information、cross-cumulant，並未充分運用獨立的特性，既失準、又繁冗。等你發明更好的指標。

原數據是實施了某種仿射變換的獨立數據。

獨立數據的座標軸，反向變換，得到原數據的「獨立成分」。

先算PCA，再算⟂ICA，即得ICA。

先用PCA扳正獨立成分，再用⟂ICA擺正獨立成分。

一、PCA：得到不相關數據。推定獨立成分互相垂直。
　甲、獨立導致不相關。不相關未必獨立。
　乙、原數據的性質：獨立數據（挪至數據中心時，亦是不相關數據），實施仿射變換。
　　　PCA的功能：任意數據，實施仿射變換，成為不相關數據。
　丙、原數據實施PCA，成為不相關數據，
　　　推定為獨立數據，推定獨立成分互相垂直。
　　　【註：很有可能不是推定、而是確定。我不會證明，也查無證明。】
　丁、然而，PCA所得到的不相關數據，實施任意旋轉，仍是不相關數據。
　　　必須找到正確方位。
二、⟂ICA：得到獨立數據。得到互相垂直的獨立成分。
　甲、找到最佳向量，作為獨立成分：數據投影到該向量，看起來最獨立。
　乙、自行設計指標，評估獨立程度，化作最佳化問題。
　丙、消滅該維度，遞迴下去，得到互相垂直的獨立成分。
　丁、獨立成分的反矩陣，就是⟂ICA變換矩陣，得到獨立數據。
三、PCA變換矩陣、⟂ICA變換矩陣，依序複合（相乘），即是ICA變換矩陣。
　甲、ICA變換矩陣的反矩陣，推定為原數據的獨立成分。

〇、X減去平均數。
一、PCA(X'):  X' = A₁X    (A₁ = √Λ⁻¹E⁻¹)
二、⟂ICA(X"): Y = A₂X'    (A₂ = F⁻¹)
三、ICA(X):   Y = A₂A₁X   (A = A₂A₁ = F⁻¹√Λ⁻¹E⁻¹)
　　A⁻¹ = E√ΛF推定為獨立成分。
　　如果討厭鏡射，記得讓E和F成為右手座標系。

據我所知，目前所有的演算法，都是基於此手法。儘管邏輯不夠嚴謹，但是我們也沒有更好的方法了。面對亂七八糟的數據，只好用亂七八糟的方法。

演算法（FOBI）（fourth-order blind identification）

PCA：求得不相關數據。

⟂ICA：不相關數據X，個別乘上自身長度X'。共變異矩陣X'X'ᵀ的特徵向量，推定為互相垂直的獨立成分。

共變異矩陣X'X'ᵀ，用來模仿四次動差矩陣X⊗Xᵀ⊗X⊗Xᵀ，用來模仿峰度kurtosis，用來評估獨立程度。

演算法如同兩次PCA。第二次時，數據個別乘上自身長度。

演算法（FastICA）

作者本人專著《Independent Component Analysis》。

f(p) = ‖ E[G(p)] - E[G(q)] ‖²
E[]：期望值。（平均數）
G()：常態分布函數，添加負號。（添加負號是為了稍微加速演算法）
p：給定的一維分布隨機變數。（給定的一維數據們）
q：一維常態分布隨機變數。（無法化作一維數據，無法計算。啊就作者唬爛。）

目標函數‖ E[G(p)] - E[G(q)] ‖²，用來模仿負熵negentropy，用來模仿常態分布不相似度non-gaussianity，用來評估獨立程度。

然而根據推導過程，事實並非如此。目標函數其實是E[G(p)]，用來模仿聚散程度，用來評估獨立程度。

數據們靠攏原點，E[G(p)]很小；數據們遠離原點，E[G(p)]很大。其餘性質不明。

推導過程取自專著(8.25)至(8.43)，精簡如下：

optimize E[G(vᵀx)]                           數據x投影到獨立成分v：vᵀx
                                             盡量靠攏或遠離原點

v_next = v - F′(v) / F″(v)                   牛頓法求極值
       = v - E[x G′(vᵀx)] / E[xxᵀ G″(vᵀx)]   最小值或最大值

v_next = E[xxᵀ G″(vᵀx)] v - E[x G′(vᵀx)]     右式乘上分母，以消去分母
                                             避免矩陣除法，然而答案不對

v_next = E[G″(vᵀx)] v - E[x G′(vᵀx)]         數據經過PCA處理之後xxᵀ= I
                                             專著當中，此式算錯了，變號了

找到獨立成分、消滅該維度，不斷遞迴下去。

找到獨立成分：牛頓法。目標函數求極值。

消滅該維度：獨立成分垂直投影。沿著先前獨立成分方向。。

數據實施投影，正確但是慢了點；數據不投影，獨立成分時時投影，不正確但是快了些。當遞推次數遠小於數據數量，可節省時間。

// 常態分布函數添加負號、一次微分、二次微分
auto G  = [](float x) {return -exp(-x*x/2);};
auto G′ = [](float x) {return x*exp(-x*x/2);};
auto G″ = [](float x) {return (1-x*x)*exp(-x*x/2);};

// 期望值（平均數）
MatrixXf avg(MatrixXf X)
{
	return X.rowwise().mean();
}

// 各筆數據乘以各種倍率
MatrixXf mul(MatrixXf X, MatrixXf S)
{
	MatrixXf Y = X;
	for (int i=0; i<X.cols(); ++i)
		Y.col(i) = X.col(i) * S.col(i);
	return Y;
}

void fastICA()
{
	// 三維數據，總共五點。
	const int D = 3;
	const int N = 5;
	MatrixXf X(D, N);
	X << 1, 4, 5, 3, 7,
		 2, 5, 0, 3, 5,
		 3, 6, 4, 3, 9;

// PCA
	X.colwise() -= X.rowwise().mean();
	MatrixXf C = X * X.transpose();
	SelfAdjointEigenSolver<MatrixXf> ed(C);
	VectorXf Λ = ed.eigenvalues();
	MatrixXf E = ed.eigenvectors();
	MatrixXf A = Λ.cwiseSqrt().cwiseInverse().asDiagonal()
			   * E.transpose();
	MatrixXf Xw = A * X;

// 找到三個互相垂直的獨立成分
	MatrixXf V(D, D);
	for (int i=0; i<D; ++i)
	{
		// 隨機生成向量，當作初始向量。通常不會是零向量。
		MatrixXf v(D, 1), v0(D, 1);
		v.setRandom();
		v0 << 0, 0, 0;

// projected Newton method
		const float ε = 1e-6;	// 精確度
		vhile ((v - v0).norm() > ε)
		{
			v0 = v;

// Newton method：朝著梯度方向走一步。
			MatrixXf Xp = v.transpose() * Xw;
			v = mul(v,  avg(Xp.unaryExpr(G″)))
			  - avg(mul(Xw, Xp.unaryExpr(G′)));

// project：投影至約束條件，垂直於先前的獨立成分。
			for (int j=0; j<i; ++j)
				v -= v.col(j) * (v.transpose() * v.col(j));

// project：投影至約束條件，獨立成分長度為一。
			v = v.normalized();
		}

// 紀錄獨立成分
		V.col(i) = v;
	}

// 獨立數據
	MatrixXf Y = V.transpose() * Xw;
	cout << Y;

// 獨立成分
	MatrixXf invA = E * Λ.cwiseSqrt().asDiagonal() * V;
	cout << invA;
}