2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 16:08 UTC+8

利用資訊抽取從阿拉伯語-英語機器可讀詞典中提取知識

本文提出了一種從阿拉伯語-英語Al-Mawrid詞典的機器可讀版本中自動提取詞彙資訊的方法。該方法結合n-gram分析和關鍵詞索引（KWIC）分析發現形態、句法或語義模式，並透過手工規則進行資訊抽取。實驗表明，該方法在所有資訊型別上精度高，同義詞召回率高，其他資訊召回率低。研究發現Al-Mawrid詞典含有大量派生詞、同義詞、領域標籤和上下位關係。

來源arXiv Computational Linguistics作者: Diaa M. Fayed, Aly A. Fahmy, Mohsen A. Rashwan, Wafaa K. Fayed

自然語言處理（NLP）應用需要大量豐富的語言知識。隨著電子語言資源（如詞典、百科全書和語料庫）的普及，自動方法應運而生，以從這些資源中提取詞彙資訊，克服知識獲取瓶頸。本文提出了一種從阿拉伯語-英語Al-Mawrid詞典的機器可讀版本中自動提取詞彙資訊的方法。

研究人員首先使用n-gram分析和關鍵詞索引（KWIC）分析來發現體現形態、句法或語義資訊的詞彙模式。這些模式能夠揭示詞彙的形態變化、句法結構或語義關係。隨後，他們採用手工編寫的基於規則的資訊抽取技術來提取這些資訊。此外，還利用標點符號和啟發式方法從子詞條中提取同義詞集。例如，透過識別括號、逗號等標點，以及一些常見的同義詞標記，能夠有效地將同義片語提取出來。

實驗結果顯示，該方法在所有資訊型別上均取得了高精度，特別是在同義詞提取方面獲得了高召回率。然而，對於其他資訊型別（如派生詞、領域標籤和上下位關係），召回率較低。這表明，雖然規則方法在特定任務上表現良好，但可能無法覆蓋所有語言現象。研究還表明，Al-Mawrid詞典包含大量派生詞（形態資訊）、同義詞、領域標籤以及上下位關係（語義資訊）。這些發現對於構建阿拉伯語語言資源具有重要意義。

該論文發表於CITALA 2014會議，共9頁，包含7張圖和4張表格。論文由Diaa M. Fayed等人撰寫，目前以arXiv預印本形式釋出（編號2606.28457）。儘管原始會議網站已無法訪問，但該工作為從雙語詞典自動獲取詞彙知識提供了有效的思路和方法。