關鍵詞自動擷取

緣由與目的:

「關鍵詞自動擷取」是一種辨認數位文件內有意義且具代表性字串(string)、 片語(key phrases)、詞彙(keywords)、或內容片段(key segments)的 自動化技術。

由於關鍵詞是呈現文件主題意義的最小單位,因此大部分對非結構化文件的 自動處理,如自動索引、索引典自動建立、自動摘要、 自動分類、自動歸類、相關回饋、自動過濾、事件偵測與追蹤、知識探勘、 資訊視覺化、概念檢索、檢索提示、關聯知識分析、自動化權威控制、 自動化詢答系統等,都必須先進行關鍵詞擷取的動作,再進行 其他的處理。

可以說,關鍵詞擷取是所有文件自動處理的基礎與核心技術。

關鍵詞擷取的方法,可大略分為統計法、詞庫法、規則法或這三種方法的 合併運用。目前有許多方法被提出來,但所運用的資源與計算量都相當大。

為此,筆者發展出一套快速、簡單、有效的規則,來擷取文件的關鍵詞彙。 有趣的是,此自動擷取方法與語言文字關係不大,甚至可直接運用在 多媒體的數位文件上,例如音樂檔案,以擷取其中的關鍵旋律。

成效:

在沒有運用大量詞庫的情況下,書目資料的關鍵詞擷取準確度為 90% , 新聞全文資料的準確度為 86% 。

在運用 12 萬詞的詞庫後,新聞全文的關鍵詞擷取準確度為 96% 。 其中每篇新聞有 33% 個關鍵詞為詞庫中沒有收錄的詞彙。

其計算複雜度理論的最佳值為 O(L x N),其中 N 為輸入文件的長度 (字元個數), L 為最長重複字串的長度。

系統特色:

  1. 簡單、速度快。
  2. 有效、準確度高。
  3. 可自動擷取新生詞彙、各領域的專有名詞。
  4. 擷取的關鍵詞沒有長度限制。
  5. 統計特徵非常低(僅出現兩次)的關鍵詞也可被擷取到。
  6. 不要求文件的完整性,可適用於有雜訊的環境,如 OCR 文件、語音辨識等文件。
  7. 可以不需要額外資源,如字典、詞庫、文法剖析器、語料庫等需耗費大量 人力事先建立或維護的資源。也可以運用這些資源,增加準確度,但不需經常維護。
  8. 不僅適用於文字資料,也適用於其他可表達成字串或有序集合的資料, 如音樂(music)、語音(speech documents)、音訊(audio)、影像序列 (image sequence)、時間序列(time series)、DNA序列等等。
  9. 可做為其他進階運算的基礎:可運用在自動索引、索引典自動建立、 自動摘要、自動分類、相關回饋、自動過濾、概念檢索、相關詞提示、 相關詞回饋、動態分類目錄、資訊視覺化等資訊檢索及其他知識探勘的應用上。

範例:

文件內容 自動擷取出來的關鍵詞
BMG Entertainment與Sony Music計畫在Internet 上銷售數位音樂。 (美國矽谷/陳美滿)
根據 San Jose Mercury News 報導指出,BMG Entertainment 計畫在6月上旬或 中旬開始在 Internet 上銷售數位音樂。消費者將可直接將音樂下載至 PC, 而無需購買 CD 或錄音帶。該公司為執行上述計畫已與多家高科技廠商合作, 包括 IBM、Liquid Audio 與 Microsoft。BMG 隸屬於 Bertelsmann 公司。
另外,Sony Music 也將於下週一宣佈該公司計畫於本月底開 始提供數位音樂下載。 消費者將可在手提裝置上聆聽下載來的數位音樂。此項數位音樂下載將是市場上 首項具有防止盜錄功能的產品。網路音樂市場在過去幾年已顯現市場潛力, 主要拜 MP3 規格之賜。
1 : 音樂 (7)
2 : 數位音樂 (5)
3 : 下載 (4)
4 : 計畫 (4)
5 : BMG (3)
6 : Music (2)
7 : Sony Music (2)
8 : Entertainment (2)
9 : BMG Entertainment (2)

相關著作:

  1. Yuen-Hsien Tseng, "Fast Keyword Extraction of Chinese Documents in a Web Environment," International Workshop on Information Retrieval with Asian Languages - 1997, Oct. 8-9, Japan, pp.81-87.

  2. Yuen-Hsien Tseng, "Multilingual Keyword Extraction for Term Suggestion," Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR '98, Aug. 24-28, Australia, 1998, pp.377-378.

  3. Yuen-Hsien Tseng, "Content-Based Retrieval for Music Collections," Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR '99, Aug. 15-19, Berkeley, U.S.A., 1999, pp.176-182.
  4. 曾元顯, 數位文件之資訊擷取與檢索, 269 頁, 2000 年 9 月, ISBN 957-99750-3-2 , 全壘打文化事業有限公司出版.

  5. 曾元顯, "關鍵詞自動擷取技術與相關詞回饋", 「中國圖書館學會會報 59 期」, 1997 年 12月, 頁59-64.

相關計畫:

  1. 曾元顯, 「雜訊文件關鍵詞自動擷取及應用」, 國科會88學年度研究計畫報告, NSC 88-2413-H-030-017-

  2. 曾元顯, 「中文索引典之自動建構及其應用」, 國科會91學年度研究計畫報告, NSC 91-2413-H-030-012-。

  3. 曾元顯, 「多國語文OCR文件之資訊擷取與檢索」, 國科會89學年度研究計畫報告, NSC 89-2413-H-030-006-

  4. 曾元顯, 「多模態音樂檔案快速關鍵旋律自動擷取及其應用」, 國科會89學年度研究計畫報告, NSC 89-2413-H-030-016-

相關專利:

  1. 曾元顯, 數位文件關鍵特徵之自動擷取方法, 中華民國發明專利,專利號:153789
    (Yuen-Hsien Tseng, "Automatic Key Feature Extraction from Digital Documents", ROC Patent No: 153789, Effective from April 11, 2002 to January 14, 2020.)

  2. 曾元顯, 數字文件關鍵特徵的自動擷取方法, 中華人民共和國發明專利,專利號:ZL 00 1 22602.9.
    (Yuen-Hsien Tseng, "Automatic Key Feature Extraction from Digital Documents", PRC Patent No: ZL 00 1 22602.9. Application date: August 4, 2000. Effective from April 26, 2006 to August 4, 2020.)


Established on June 1, 1998, last modified on June 1, 2008 by
Yuen-Hsien Tseng