data

data

繁中「資料」、簡中「数据」。

表示成表格。一個直條是一筆數據,一個橫條是一種特徵。

表示成矩陣。

表示成座標點。

表示成二分圖。

表示成隨機向量。

graph

數據彼此有關係。

可以表示成圖。

不強調座標,強調關係。

p = {{2,3,5},{3,4,2},{2,3,5},{1,2,1},{1,2,0}}; l = {{p[[1]],p[[2]]},{p[[1]],p[[4]]},{p[[2]],p[[4]]},{p[[2]],p[[5]]},{p[[4]],p[[5]]}}; Graphics3D[{Black, Specularity[White, 10], Sphere[p, 0.3], Thickness[0.03], CapForm["Butt"], RGBColor[255,192,0], Opacity[0.9], Line[l]}, PlotRange -> {{-1,6},{-1,6},{-1,6}}, Boxed -> False]

measure

長度(length)

現實世界,考慮一個東西有多少份量;化為數學,就是考慮一個東西的長度是多少。

此處的長度,是數學術語,不是物理學術語。此處的長度,是指份量多寡,不是指公分公尺。

長度函數(norm)

長度在數學中擁有嚴謹定義:

一、長度不會是負數。p(A) ≥ 0
二、恰是零的東西,長度等於零。p(A) = 0 when A = 0
三、不是零的東西,長度大於零。p(A) > 0 when A ≠ 0
四、一個東西均勻放大縮小,其長度也隨著放大縮小。p(k⋅A) = |k|⋅p(A)
五、兩個東西拼裝起來,其長度只會累加或短少。p(A + B) ≤ p(A) + p(B)

常見的長度函數:

L₀ norm:非零的數量。
L₁ norm:先轉正數、再相加。
L₂ norm:先平方和、再平方根。
L∞ norm:最大值。

常見的元件:

一個數值的長度:用絕對值計算長度。
一個向量的長度:有多種公式,請參考「vector norm」。
        最經典的是平方長度:先平方和、再平方根。
一個矩陣的長度:有多種公式,請參考「matrix norm」。

長度函數(rank)

不滿足上述定義的長度函數,嚴謹起見,大家另起一名rank。實務上相當罕用。

常見的元件:

一個集合的長度:「set rank」
一個矩陣的長度:「matrix rank」
一張圖的長度:「graph rank

距離(distance)

現實世界,考慮兩個東西有多相似;化為數學,就是考慮兩個東西的距離有多接近。

此處的距離,是數學術語,不是物理學術語。此處的距離,是指差異份量多寡,不是指公分公尺。

距離函數(metric)

距離在數學中擁有嚴謹定義:

一、距離不會是負數。d(A,B) ≥ 0
二、兩個相同的東西,距離等於零。d(A,B) = 0 when A = B
三、兩個不同的東西,距離大於零。d(A,B) > 0 when A ≠ B
四、A到B的距離等於B到A的距離。d(A,B) = d(B,A)
五、三角不等式,ABC三個東西,兩邊和大於等於第三邊。
  d(A,B) + d(B,C) ≥ d(A,C)
  或者說,三個東西融合成兩個東西,其距離只會累加或短少。
  d(A,C) ≤ d(A,B) + d(B,C)

常見的距離函數:

Euclidean distance(L₂):直線距離。
taxicab distance(L₁):垂直、水平移動的距離。
Hamming distance(L₀):相對應維度,數值相異的維度個數。

常見的元件:

兩個數值的距離:用減法與絕對值計算距離。
兩個向量的距離:「Minkowski distance」或者「angular distance」
兩串數列的距離:數列類似向量,同上。
兩串字串的距離:「edit distance」或者「k-mer distance」
兩串訊號的距離:以「linear predictive coding」或者「fourier transform」
        重新表示訊號,再用數學公式計算距離。
兩個樣本的距離:「Mahalanobis distance」
兩個集合的距離:「Jaccard index」或者「Sørensen–Dice index」
兩群點的距離:「Hausdorff distance」或者「matching distance」
兩條曲線的距離:「Fréchet distance」
兩個浮動數字的距離:「Kantorovich distance」
兩棵樹的距離:「tree edit distance」
兩張圖的距離:「graph kernel

UVa 10508 11085 ICPC 5132

距離函數(divergence)

不滿足上述定義的距離函數,嚴謹起見,大家另起一名divergence。由於該詞彙已經用於多變量函數的散度運算,簡單起見,大家經常假借舊名distance。

常見的元件:

兩個向量的距離:「cosine distance」
兩個函數點(凸函數)的距離:「Bregman divergence」
兩個浮動數字的距離:「Kullback–Leibler divergence」或者「Łukaszyk–Karmowski distance

半長度函數(seminorm)、半距離函數(semimetric)

二、恰是零的東西,長度等於零。p(A) = 0 when A = 0
三、不是零的東西,長度大於零。p(A) > 0 when A ≠ 0
二、兩個相同的東西,距離等於零。d(A,B) = 0 when A = B
三、兩個不同的東西,距離大於零。d(A,B) > 0 when A ≠ B

規則三用來確保:只有零元素的長度是零、只有相同元素的距離是零。然而規則三往往不切實際。數學家將規則三改成大於等於,將名稱添上「半semi」字,意義等同於線性代數的半正定。

規則三改成大於等於,等同於取消規則三。當規則一二同時成立,自然得到新規則三,不必特地寫下來。

另外還有許多修改規則的方式,將名稱添上各式各樣的字眼。為賦新詞強說愁,就不贅述了。