Anubis 曾智聖 Tseng, Chin-Sheng (496631473@s96.tku.edu.tw) 黃紀綸 Allen-Green C.L. Huang (wivx.com@gmail.com) 邱裕軒 Chiu Yu-Hsuan,Abner (boloage@gmail.com) 洪維澤Hong,Wei-Ze (over1125@gmail.com) 葉龍騰 Yap Loong Tern (496636035@s96.tku.edu.tw) 2011.05.17 摘要 Anubis系統是淡江大學的戴敏育教授,帶領著資管系的五名大四學生所開發出來的系統, 主要是為了參加NTCIR (NII Test Collection for IR Systems)的第九屆RITE(Recognizing Inference in Text )比賽, 主題是針對繁體中文的兩個句子做分析,進而分辨出它們之間具備的是正向、反向、雙向、矛盾、或者是獨立其中的哪一種關係。 在經過了一段時間的討論,以及大量相關文獻的閱讀之後,我們採用了 RTE5(Iftene,2009)一部份的模型, 為了因應現有的詞彙庫與品質、中文的數字特色,流程上我們作了一些改變, 最後整理出經由中央研究院的斷詞系統- CKIP(Chinese Knowledge and Information Processing), 配合哈爾濱工業大學的信息檢索研究中心(HIT CIR)授權使用的LTP進行語意結構的分析。 之後再搭配同學們開發的模組(時間分析模組、同義詞分析模組…等)來取得特徵值, 最後將特徵值的資料輸入SVM(Support Vector Machines)用來找出較為合適的特徵值以及機械學習的基礎 ... 研究背景與動機 中文是源遠流長的語言,黃帝時中原有萬國之多,及周還初分八百諸侯, 上至秦朝西元前221年一統中國始「書同文,車同軌」,據估計, 中文目前約被全球13億以上的人口所作為母語,也是世界上最廣為人們作為母語的自然語言。 繁體中文,西方國家稱之為 傳統中文(Traditional Chinese), 然而現代繁體中文的文字處理技術卻尚未被廣為使用在資訊技術中。 為我們希望開發一套傳統中文語意判別的系統,而兩個文句的比較, 讓我們想到了 Anubis,因此Anubis系統也就此誕生了 ...