詞彙、句構與語料庫:
語法知識網絡分析
陳正賢 (Alvin Chen)
國立台灣師範大學英語系
2020年11月14日
語法知識網絡
- 語言單位之間的相關性,一直是語言學家關心的議題。
- 詞彙間的搭配關係(Collocation)
- 詞彙與句構間的搭配關係(Colligation, Collostruction)
- 隨著語料庫方法發展成熟,字串間的相連性,成為詞彙語意(lexical semantics)研究的重要基礎。
- 透過大量語料中的共現關係(Co-occurrence patterns),分析詞彙語意,定義其語意表徵(Semantic Representation)。
- 透過語境所取得的詞彙分散式語意表徵(Distributed Semantic Representation),成為近年來語意分析研究的重要議題。(如:顯著搭配詞、詞向量[Word Embeddings])。
分散式語意表徵
- 語言單位之間的共現關係(Co-occurrence patterns)成為分散式語意表徵(Distributed Semantic Representation)學習的重要基礎。
- 然而,完整的語法網絡知識,除了詞彙的語意表徵以外,應該也必須包含「句構(construction)」語意。
- 但,該如何表徵一個抽象(或是半抽象)的句構語意?
以中文「空間句構」為例
「在 + 參考物體 + 空間方位詞」
- 從構式語法的角度來看,一個抽象構式,如同一個詞彙,有其獨立的語意(Symbolic Meaning)。
「句構」的分散式語意表徵
- 句構的語意,亦可從句構與其他語言單位之間的共現性,學習其分散式語意表徵(Distributed Semantic Representation):
- 句構與詞彙間的連結:哪些詞彙經常與特定空間句構共同使用?
- 詞彙與詞彙間的連結:出現在空間句構中的詞彙裡,哪些詞彙語意較為相近?哪些詞彙語意距離較遠?
- 句構與句構間的連結:哪些空間句構較為相近?哪些空間句構語意距離較遠?(如:「在 +… + 內」、「在 +… + 下」、「在 +… + 後」)
語料庫學習
- 以上三種連結,是構成我們語法知識網絡的重要基礎,透過大量語料庫資料,我們可以利用量化方法學習並模擬這三種連結,重現一個句構的語意網絡(Semantic Network)。
- 我們可利用「網絡分析方法(network science)」,進一步以圖像方式呈現句構與其他詞彙間的互動關係,即語法知識網絡(Grammatical Network)。
語法知識語意網絡(Grammar Network)
網絡分析
- 結合網絡分析方法(Network Science),我們可以透過句構的網絡,分析句構語意:
- 每一個空間句構中,典型(prototypical)的參考物體為何?
- 每一個空間句構中,其共現的參考物體有無語意共通性(semantic cohesiveness)?
- 在整個中文空間句構中,是否有明顯的語義場(Semantic fields)?每個語意場與每個空間概念的互動為何?
- 透過統計學習方法,更可從網絡中,學習「句構」的抽象分散式語意表徵(Representation Learning)。(如:DeepWalk, node2vec)
感謝聆聽!
參考資料:Chen, Alvin Cheng-Hsien. In press. Words, constructions and corpora: Network representations of constructional semantics for Mandarin space particles. Corpus Linguistics and Linguistic Theory 19(1). https://doi.org/10.1515/cllt-2020-0012