substring - 演算法筆記

string searching: inverted index

建立索引表處理字串搜尋問題

預先挑出重要單字，預先計算位置。將來進行字串比對，可以直接查表。

字元索引表

找到每個字元的所在位置。

string:
012345678910
mississippi

inverted index:
i : 1 4 7 10
m : 0
p : 8 9 
s : 2 3 5 6

建立過程正是counting sort的第一個步驟。時間複雜度O(T+A)。

字串搜尋

先查閱索引表，再實施窮舉法，時間複雜度O(TP)。

時間複雜度乍看之下沒有任何改進，但是實際上是大躍進！尤其是當各個字元的出現次數很平均、差不多相等，那麼窮舉次數就降低成1/128倍、執行時間降低成1/128倍了！

單字索引表

實務上是建立單字索引表。以大量字串資料結構儲存單字。

string/pattern變成了document/word。

documents:
d[0] : "it is what it is"
d[1] : "what is it"
d[2] : "it is a banana"

inverted index:
"a"      : (2,2)
"banana" : (2,3)
"is"     : (0,1) (0,4) (1,1) (2,1)
"it"     : (0,0) (0,3) (1,2) (2,0)
"what"   : (0,3) (1,0)

UVa 1597 ICPC 3134

move-to-front transform

一、A種字元依序排隊。（將A種字元存入具有排名功能的資料結構）
二、每當讀入一個字元，就印出字元的名次。（把名次數值轉型成ASCII字元）
三、該字元插隊到最前面。

排名資料結構採用array，每次插隊需時O(A)，總時間複雜度O(NA)。

排名資料結構採用binary search tree，每次插隊需時O(logA)，總時間複雜度O(NlogA)。

出現地點比較密集（不是指出現次數比較多），名次數字比較小。是個奇妙的轉換，講不出個所以然。反覆實施MFT，不知道最後會怎麼樣。

inverse move-to-front transform

一、A種字元依序排隊。（A種字元存入具有排名功能的資料結構）
二、每當讀入一個名次，就印出字元。
三、該字元插隊到最前面。

時間複雜度同前。

Burrows–Wheeler transform

輸入是一個字串，輸出是一個字串、附帶一個索引值。

輸入字串長度為N。輸入字串循環移位，得到N個字串。N個字串實施排序，依序取得最後一個字元（也有人取第二個字元），作為輸出字串。並且記下輸入字串的排名。

            BWT
"suffixes" ----> "xuffessi"   ("suffixes" is rank 5)

                  suffixes        essuffix 0
                  uffixess        ffixessu 1
                  ffixessu        fixessuf 2
          rotate  fixessuf  sort  ixessuff 3
suffixes -------> ixessuff -----> ssuffixe 4
                  xessuffi        suffixes 5*
                  essuffix        uffixess 6
                  ssuffixe        xessuffi 7
                                         ^

後綴有著極快的排序演算法，因此改成後綴。

輸入字串重複一遍，長度變為2N。排序前N個後綴，等同於排序原本N個循環字串！唯一例外：輸入字串只有一種字元、所有字元通通相同；然而這種情況下，BWT的結果顯而易見就是原本字串，大可不必實施排序。

"suffixes"          | "suffixessuffixes"
sort cyclic strings | sort first N suffixes
--------------------| ---------------------
essuffix            | essuffixes      
ffixessu            | ffixessuffixes  
fixessuf            | fixessuffixes   
ixessuff            | ixessuffixes    
ssuffixe            | ssuffixes       
suffixes            | suffixessuffixes
uffixess            | uffixessuffixes 
xessuffi            | xessuffixes     
^^^^^^^^              ^^^^^^^^
輸入字串有兩種以上字元，就能用前N個字元決定排序結果。

運用suffix array達成BWT，時間複雜度O(N+A)。

BWT令相同字元容易黏在一起，是主要特色。知名的應用是「run-length compression」。

想要相同字元黏在一起，為什麼不直接排序輸入字串的所有字元就好了？原因很簡單，因為沒辦法還原成原本字串。

inverse Burrows–Wheeler transform

輸出字串、輸入字串的名次，還原成輸入字串。

            IBWT
"suffixes" <----- "xuffessi"   (original string is rank 5)

IBWT的本質，是將N個循環字串，從排序之後的順序，還原成排序之前的順序。我們觀察排序之後的順序。

一、最後一個字元重新排序，就是第一個字元。想一想為什麼？

 0   .......x          e......x
 1   .......u  fill    f......u
 2   .......f  1st     f......f
 3   .......f  column  i......f
 4   .......e -------> s......e
*5   .......s          s......s
 6   .......s          u......s
 7   .......i          x......i

二、第一個字元，循環左移，變成最後一個字元。依此找到對應字串。依此找到原字串每個字元的下一個字元。

二之一、僅出現一次的字元：輕鬆找到對應字串。

  e......x
  f......u
  f......f　　　
V i......f      get i->x
  s......e
  s......s
  u......s
  x......i V

二之二、出現兩次以上的字元：觀察第一個字元。第一個字元移除之後，字串先後次序不變。第一個字元循環移位之後，字串先後次序不變。依此找到對應字串。

  e......x
  f......u
  f......f         1      2
  i......f     get s->s , s->u
1 s......e
2 s......s 1
  u......s 2
  x......i

運用inverted index達成IBWT，時間複雜度O(N+A)。

UVa 632 741

dynamic Burrows–Wheeler transform

【待補文字】

string searching: FM-index

大雜燴。

string searching: LZ-index

仿照Ziv–Lempel compression，將字串切散成許多段。從頭掃描，遇到從未出現的前綴，就切斷。將每段字串存入trie，將每段字串頭尾顛倒存入另一棵trie，以便實施字串搜尋。

string searching: Karp–Rabin algorithm

運用數列處理字串搜尋問題

字元看作數值，字串看作數列。運用數列的知識，設計演算法。

以區間和篩選

計算P的總和。窮舉T的區間和，區間長度是P的長度。

當區間和相等，才有機會搜尋成功，才需要比對字元。

宛如初試與複試，先簡單快速篩選，再嚴格緩慢校對，省時。

以多項式篩選

區間和容易相等，容易誤判。篩選機制尚有改進空間。

數列變成多項式。為了避免除法運算，次方順序設為由大到小。

仿效x進位的觀念，令x的值大於等於字元種類，使得不同字串必是不同總和。

變成多項式，導致新問題：總和太大，導致溢位。解法是減少底數x、設定模數m。這使得不同字串可能是相同總和。

儘管仍舊不完美，但是篩選效果更好了。當多項式相等，字串差異也更大了，比對字元得以提早結束。最差時間複雜度O(TP)，平均時間複雜度O(T+P)。

位元運算，速度更快。使用二進位，底數x = 2，模數unsigned int = 2³²。

以雜湊函數篩選

多項式，宛如字串雜湊函數djb2、sdbm。

string searching: SSEF algorithm

演算法

融合了雜湊函數、索引表兩種手法。

雜湊函數：給定16個字元，得到一個二進位數字（16個位元）。每個字元，視作二進位數字，取第K高位元，併成一個二進位數字，當作雜湊值。K是自訂數值。

索引表：給定16個字元的雜湊值，得到16個字元在P之中的所有位置（位置是16的倍數）。P每16個字元為一組，各組計算雜湊值，存入表格。

字串搜尋：窮舉T的各種位置。針對一種位置，每16個字元，求得雜湊值，查詢表格，檢查位置是否相符，此為初試。如果相符，才比對字元，此為複試。

平行計算：利用Intel中央處理器的擴充指令集SSE。

演算法名稱由來：利用SSE進行filtering（初步篩選）。

實務上最快的演算法（2010年的測量結果）。

《Filter Based Fast Matching of Long Patterns by Using SIMD Instructions》

《The Exact String Matching Problem: a Comprehensive Experimental Evaluation》