Page 29 - profile2014.indd
P. 29

語言與知識處理實驗室










               2. 多媒體音訊分析及檢索技術                                        的效能。我們將基於過去所發展的Sinica中文剖析器、語
                 我們的研究目標是開發多媒體音訊分析、抽取、辨識、                             意角色標記及e-Hownet等資源及工具,持續增進分析之
                 索引及檢索技術。在語音方面,我們的研究著重在語者                             效能。
                 辨識、口語語言辨識、語音轉換、語音文件檢索/摘要。
                 在音樂方面,進行中的研究課題包括歌聲旋律抽取、音樂                          7. 語意導向式的機器翻譯
                 標籤預測、音樂情緒辨識、音樂檢索。我們的音樂標籤                             我們採用語法深層結構,然後在每個詞上附著其詞意,並
                 預測系統在2009  Music  Information  Retrieval  Evalua-    在樹狀結構的每個節點上標註其語意格位。我們使用一個
                 tion eXchange (MIREX2009)獲得第一,整合聲學與視覺                整合式的統計模型找出最佳之語法深層結構、詞意,及
                 情緒高斯模型的自動音樂影片生成技術則在ACM  Multi-                       語意格位的組合。在得到源始端的語意正規型式後,我
                 media 2012獲得Grand Challenge First Prize。             們利用在最佳路徑上自動學習的參數及模版,產生對應
                                                                      的目標端語意正規型式及最後的句子。除此之外,對每
               3. 中文自然語言問答系統                                         一個無法產生對應結構之句子,我們將生成一個在搜尋柱
                 中文自然語言問答是一項嶄新而充滿挑戰性的研究議題。                            內之替代路徑,使其具有最大之指定函數值  (基於BLEU
                 我們結合了實驗室各種中文技術,如問題理解、文句擷                             分數及可能機率值)。
                 取、專有名詞辨識、候選答案排序、語意模板等,研發
                 出一套問答系統。這套系統在2007年日本東京NTCIR舉                       8. 中文自然語言理解
                 辦的第二屆中文問答系統競賽中,以55.3%正確率蟬聯第                          我們將用之前所建立之不同分析模組  (如中文分詞、句法
                 一名。                                                  剖析、語意角色標註、邏輯型式轉換等),來建立一個中
                                                                      文自然語言理解系統。我們會首先為這個長期的研究計劃
               4. 專有名詞辨識                                              建立一個中文機器閱讀程式,使本計劃可以用閱讀測驗
                 在文件中標註出人名、地名、機構名等專有名詞極為重                             來評估。我們將從國小課本開始,然後再進一步到中學
                 要,我們以機器學習為基礎所開發的專有名詞辨識系統,                            課本,並最後到真正專業領域之應用  (例如智慧型問答系
                 在  2006  SIGHAN  中文專有名詞辨識競賽中取得第二名。                   統)。
                 在2009年國際蛋白質名詞搜尋賽中,榮獲第一名。在近
                 期的研究中,利用馬可夫邏輯網路將基因∕蛋白質專有名
                 詞正規化系統與專有名詞辨識元件整合,有效提升專有名
                 詞辨識與去歧異化的正確率。
               5. 中文文本蘊涵
                 文本蘊涵是近年來自然語言處理領域中一個新興且極具挑
                 戰性的題目。藉由深度的語意語法分析,系統能精確的
                 辨認出兩文本之間的推論關係。本研究群整合現有的自
                 然語言工具及資源,研發出一套中文文本蘊涵辨識系統,
                 在2011年日本東京NTCIR,取得了第二名的成績。

               6. 情感分析與意見探勘
                 主觀資訊的分析是自然語言處理中最具應用性的研究領域
                 之一,且相關技術需深入理解文本內容及特定領域知識。
                 我們在新聞、部落格、網路論壇、評論、讀者回應及對
                 話文本中研究意見、情感、主觀性、表情、情緒、觀點等                            圖:手機上的中英文快打輸入法 Déjà vu。
                 資訊,並為中文及英文文件,研發分析主觀資訊的技術。
                 利用這些技術,我們建立了一個網路貼文的情感視覺化系
                 統Feelit,以及一個協助母語為中文之語言學習者以英文
                 表達情感的寫作輔助系統RESOLVE,兩者都達到相當好





                                                                                                                     29
   24   25   26   27   28   29   30   31   32   33   34