Page 26 - profile2012.indd
P. 26

Research Laboratories  研究群



                                                                                                                                                                        語言與知識處理實驗室


                            Natural Language and




                          Knowledge Processing                                                                                        Laboratory




          研究人員                                                                                                                        研究技師人員


             許聞廉 Wen-Lian Hsu          王新民 Hsin-Min Wang        陳克健 Keh-Jiann Chen        張  復 Fu Chang                               莊德明 Der-Ming Juang
             Distinguished Research Fellow  Associate Research Fellow  Research Fellow    Associate Research Fellow                   Assistant Research Engineer



               研究群介紹


             大量資訊以多媒體的形式在網路世界散佈,為了達到智                             型學習方法。此方法特別適用於類別很多的應用。我們                                             系統在2009  Music  Informa-
             慧型的資訊處理,知識為本的訊息處理是本計劃的核心焦                             將延續文件影像分析與光學文字辨識的研究,並且加入                                             tion  Retrieval  Evaluation
             點,我們進行三個主要長期研究方向:知識擷取,知識應                             自然語言的研究。                                                             eXchange  (MIREX2009)獲得
             用及知識表達。                                                                                                                    第一。
                                                                 3. 以模版技術為基礎的資訊擷取                                                                                                                         最基本的自然語言理解要
             一、 知識擷取                                               適當的語意模版有助於從文句中擷取名詞,及其名詞間                                           3. 中文自然語言問答系統
                                                                   的關係。我們採取了兩個策略來克服初始階段需要人                                              中文自然語言問答是一項嶄新                                                     能在一個句子中找出人、
             我們期望由計畫中發展的語言處理技術配合擷取的知識能                                                                                                  而充滿挑戰性的研究議題。
             自動的分析WWW中的大量文本,從中抽取語言知識及ㄧ般                            工導入的問題:(一)利用維基百科的大量資料當做基                                             我們結合了實驗室各種中文技                                                     事、時、地、物,這在處
             常識。                                                   底,我們提出了一套方法來檢定模版的效能一致性;(
                                                                   二)我們採用一個weakly-supervised的方式,將抽取                                     術,如問題理解、文句擷取、                                                     理沒有詞界的中文時尤其
             1. 建構本體、語言及常識知識庫                                      出來沒有意義的資訊剃除,藉此來提升資料抽取的正確                                             專有名詞辨識、候選答案排序、語意模板等,研發出一套問答系統。                                    重要。
                                                                   率。                                                                   這套系統在2007年日本東京NTCIR舉辦的第二屆中文問答系統競賽
               我們在過去二十多年發展了中文處理基礎建設為未來的                                                                                                 中,以55.3%正確率蟬聯第一名。
               自動化知識建構打下基礎。這些基礎建設包含標記語料                          二、 知識應用
               庫、句結構樹資料庫、詞彙庫、中文語法、知識地圖、                                                                                               4. 專有名詞辨識
               廣義知網、中文字構形資料庫、詞彙分析系統及句剖析                          我們所發展的注音自動轉國字的軟體─自然輸入法,正確                                              在文件中標註出人名、地名、機構名等專有名詞極為重要,我們以機
               器等。我們將利用完成的詞彙知識架構「廣義知網」與                          率接近96%,曾獲得1993年傑出中文資訊產品獎,已經普遍                                          器學習為基礎所開發的專有名詞辨識系統,在2006  SIGHAN中文專有
               中文剖析器來自動分析並抽取網路文件中隱含的語言知                          受到大眾的歡迎與接受。最近我們朝著更加國際化的方向                                              名詞辨識競賽中取得第二名。在2009年國際蛋白質名詞搜尋賽中,榮
               識及領域訊息,構建概念知識架構並建立領域知識庫及                          前進,以針對常用字串「搜尋」為概念,發展中英文「快                                              獲第一名。在近期的研究中,利用馬可夫邏輯網路將基因/蛋白質專
               中文詞彙知識庫。我們將連結不同的知識庫形成ㄧ個完                          打」輸入法。未來,除了文本處理外也將發展口語處理技                                              有名詞正規化系統與專有名詞辨識元件整合,有效提升專有名詞辨識
               整的知識網ConceptNet以提高計算機推理及語言了解能                     術以支援不同的應用系統。                                                           與去歧異化的正確率。
               力。
                                                                 1. 知識為本的中文語言處理技術                                                     5. 中文文本蘊涵
             2. 機器學習與模版分類                                          我們將發展強健型的中文結構剖析及語義分析系統,注                                             文本蘊涵是近年來自然語言處理領域中一個新興且極具挑戰性的題
               為了能夠將機器學習方法應用於大型的資料,我們必須                            重以概念為中心的中文處理技術,將利用所發展的「廣                                             目。藉由深度的語意語法分析,系統能精確的辨認出兩文本之間的推
               提升這些方法的可擴充性。目前有三個瓶頸:訓練資料                            義知網」詞彙知識架構及自動抽取得到的統計、語言語                                             論關係。本研究群整合現有的自然語言工具及資源,研發出一套中文
               的數量,特徵的數量,以及類別的數量。對此,我們分                            法及常識訊息作為基礎知識用於分析文件的概念結構,                                             文本蘊涵辨識系統,在2011年日本東京NTCIR,取得了第二名的成
               別提出了(1)以決策樹分割的方法來加速支持向量機                            並發展語義自動合成技術以瞭解文件的意義。                                                 績。
               的訓練。此方法可以得到千倍的
               加速效益而仍然維持分類的正確                                                   2. 多媒體音訊分析及檢索技術                                       三、知識表達
               率。(2)以多重特徵子集的方法                                                  我們的研究目標是開發多媒體音訊分析、
               來排列與選取特徵。此方法的學                                                   抽取、辨識、索引及檢索技術。在語音方                                    我們將研究知識架構的基礎理論及細緻語意的表達模式。  藉由分析近義
               習速度遠高於目前最佳的遞迴消                                                   面,我們的研究著重在語音辨識、語者辨                                    詞的細微差別來找出細緻語意的表達方式及語意的合成機制。我們將改
               除法(RFE)。它所獲致的分類                                                  識/分段/分群、語音文件檢索/摘要。我                                   善並整合當下最重要的一些知識架構如詞網、知網及事件框架網,以達
               正確性,以及選取到關鍵特徵的                                                   們的語者確認系統在2006  International                          到較佳的整合知識表達系統。我們也將研究知識邏輯及推理與知識結構
               數量也比後者好。(3)調適性原                                                  Symposium  on  Chinese  Spoken  Lan-                  整合的完整架構並應用於自動推理。希冀在廣義知網的本體架構下短語
                                                                                guage  Processing獲得第二名的佳績。                            或句子的語意可以由詞彙語義合成。
                                                                                在音樂方面,我們的研究著重在歌聲旋律
                                                                                抽取、哼唱式音樂檢索、音樂標籤預測、
                                                                                基於標籤之音樂檢索。我們的標籤預測


               研究群
         26    Research Laboratories
                                                                                                                                                                                                                                            27
   21   22   23   24   25   26   27   28   29   30   31