AI News HubLIVE
站內改寫1 分鐘閱讀

利用資訊抽取從阿拉伯語-英語機器可讀詞典中提取知識

本文提出了一種從阿拉伯語-英語Al-Mawrid詞典的機器可讀版本中自動提取詞彙資訊的方法。該方法結合n-gram分析和關鍵詞索引(KWIC)分析發現形態、句法或語義模式,並透過手工規則進行資訊抽取。實驗表明,該方法在所有資訊型別上精度高,同義詞召回率高,其他資訊召回率低。研究發現Al-Mawrid詞典含有大量派生詞、同義詞、領域標籤和上下位關係。

來源arXiv Computational Linguistics作者: Diaa M. Fayed, Aly A. Fahmy, Mohsen A. Rashwan, Wafaa K. Fayed

自然語言處理(NLP)應用需要大量豐富的語言知識。隨著電子語言資源(如詞典、百科全書和語料庫)的普及,自動方法應運而生,以從這些資源中提取詞彙資訊,克服知識獲取瓶頸。本文提出了一種從阿拉伯語-英語Al-Mawrid詞典的機器可讀版本中自動提取詞彙資訊的方法。

研究人員首先使用n-gram分析和關鍵詞索引(KWIC)分析來發現體現形態、句法或語義資訊的詞彙模式。這些模式能夠揭示詞彙的形態變化、句法結構或語義關係。隨後,他們採用手工編寫的基於規則的資訊抽取技術來提取這些資訊。此外,還利用標點符號和啟發式方法從子詞條中提取同義詞集。例如,透過識別括號、逗號等標點,以及一些常見的同義詞標記,能夠有效地將同義片語提取出來。

實驗結果顯示,該方法在所有資訊型別上均取得了高精度,特別是在同義詞提取方面獲得了高召回率。然而,對於其他資訊型別(如派生詞、領域標籤和上下位關係),召回率較低。這表明,雖然規則方法在特定任務上表現良好,但可能無法覆蓋所有語言現象。研究還表明,Al-Mawrid詞典包含大量派生詞(形態資訊)、同義詞、領域標籤以及上下位關係(語義資訊)。這些發現對於構建阿拉伯語語言資源具有重要意義。

該論文發表於CITALA 2014會議,共9頁,包含7張圖和4張表格。論文由Diaa M. Fayed等人撰寫,目前以arXiv預印本形式釋出(編號2606.28457)。儘管原始會議網站已無法訪問,但該工作為從雙語詞典自動獲取詞彙知識提供了有效的思路和方法。