詞彙、句構與語料庫:

語法知識網絡分析


陳正賢 (Alvin Chen)

國立台灣師範大學英語系

2020年11月14日

語法知識網絡

  • 語言單位之間的相關性,一直是語言學家關心的議題。
    • 詞彙間的搭配關係(Collocation)
    • 詞彙與句構間的搭配關係(Colligation, Collostruction)
  • 隨著語料庫方法發展成熟,字串間的相連性,成為詞彙語意(lexical semantics)研究的重要基礎。
  • 透過大量語料中的共現關係(Co-occurrence patterns),分析詞彙語意,定義其語意表徵(Semantic Representation)。
  • 透過語境所取得的詞彙分散式語意表徵(Distributed Semantic Representation),成為近年來語意分析研究的重要議題。(如:顯著搭配詞、詞向量[Word Embeddings])。

分散式語意表徵

  • 語言單位之間的共現關係(Co-occurrence patterns)成為分散式語意表徵(Distributed Semantic Representation)學習的重要基礎。
  • 然而,完整的語法網絡知識,除了詞彙的語意表徵以外,應該也必須包含「句構(construction)」語意。
  • 但,該如何表徵一個抽象(或是半抽象)的句構語意?

以中文「空間句構」為例

  • 中文表達空間概念時,經常使用以下句構:

「在 + 參考物體 + 空間方位詞」

  • 從構式語法的角度來看,一個抽象構式,如同一個詞彙,有其獨立的語意(Symbolic Meaning)。

「句構」的分散式語意表徵

  • 句構的語意,亦可從句構其他語言單位之間的共現性,學習其分散式語意表徵(Distributed Semantic Representation):
    • 句構詞彙間的連結:哪些詞彙經常與特定空間句構共同使用?
    • 詞彙詞彙間的連結:出現在空間句構中的詞彙裡,哪些詞彙語意較為相近?哪些詞彙語意距離較遠?
    • 句構句構間的連結:哪些空間句構較為相近?哪些空間句構語意距離較遠?(如:「在 +… + 內」、「在 +… + 下」、「在 +… + 後」)

語料庫學習

  • 以上三種連結,是構成我們語法知識網絡的重要基礎,透過大量語料庫資料,我們可以利用量化方法學習並模擬這三種連結,重現一個句構的語意網絡(Semantic Network)。
  • 我們可利用「網絡分析方法(network science)」,進一步以圖像方式呈現句構與其他詞彙間的互動關係,即語法知識網絡(Grammatical Network)
  1. Barabási, Albert-László. (2016). Network Science. Cambridge University Press.
  2. Diessel, Holger. (2019). The Grammar Network: How Linguistic Structure is Shaped by Language Use. Cambridge University Press.

單一句構語意網絡

語法知識語意網絡(Grammar Network)

網絡分析

  • 結合網絡分析方法(Network Science),我們可以透過句構的網絡,分析句構語意:
    • 每一個空間句構中,典型(prototypical)的參考物體為何?
    • 每一個空間句構中,其共現的參考物體有無語意共通性(semantic cohesiveness)?
    • 在整個中文空間句構中,是否有明顯的語義場(Semantic fields)?每個語意場與每個空間概念的互動為何?
  • 透過統計學習方法,更可從網絡中,學習「句構」的抽象分散式語意表徵(Representation Learning)。(如:DeepWalk, node2vec)
  1. Chami, I., Abu-El-Haija, S., Perozzi, B., Ré, C., & Murphy, K. (2020). Machine Learning on Graphs: A Model and Comprehensive Taxonomy. arXiv preprint arXiv:2005.03675.

感謝聆聽!


參考資料:Chen, Alvin Cheng-Hsien. In press. Words, constructions and corpora: Network representations of constructional semantics for Mandarin space particles. Corpus Linguistics and Linguistic Theory 19(1). https://doi.org/10.1515/cllt-2020-0012