Page 26 - profile-ok
P. 26

研究群   |   Research Laboratories










                                             語言與知識處理實驗室                                                                              Natural Language and Knowledge Processing

                                                                                                                                     Laboratory








            研究人員                               研究群介紹

           許聞廉 Wen-Lian	Hsu                  網路世界目前尚缺乏有效的自動化分析方法及技術足以快速處理文件。為了達成智慧型的資                                                  ●  知識為本的中文語言處理技術                                  3. 知識表達
           Distinguished	Research	Fellow     訊處理,本組將致力於以知識為本的訊息處理。我們規劃進行三個主要長期研究方向:知識
           Operations	Research	,	Cornell	University                                                                                      我們將發展強健型的中文結構剖析及語義分析系統,注重以概                        我們將研究知識架構的基礎理論及細緻語意的表達模式,改善並
                                             擷取,知識應用及知識表達。
           王新民 Hsin-Min	Wang                                                                                                             念為中心的中文處理技術,將利用所發展的「廣義知網」詞彙                        整合當下最重要的一些知識架構如詞網、知網及事件框架網,以
           Associate	Research	Fellow         1. 知識擷取                                                                                     知識架構及自動抽取得到的統計、語言語法及常識訊息作為基                        達到較佳的整合知識表達系統。
           Electrical	Engineering	,	National	Taiwan	University	                                                                          礎知識用於分析文件的概念結構並發展語義自動合成技術以瞭
                                                我們將研究如何自動化擷取語言知識及ㄧ般常識。我們期望發展新的語言處理技術,並                                                                                                      ●  廣義知網
           陳克健 Keh-Jiann	Chen                   配合擷取的知識能自動的分析	WWW	中的大量文本,抽取更豐富的知識。                                                       解文件的意義,進而抽取新的知識。以上步驟形成ㄧ個自動化
           Research	Fellow                                                                                                               的學習系統,語文處理系統可經由自動分析學習新知逐日更新                         語言處理技術的運作背後都需要有知識本體	 (ontology)	 及詞
           Computer	Science	,	State	University	of	New	York	  ●  建構語言及常識知識庫                                                               知識庫,同時也藉由知識庫的更新增進了語文處理的能力。                          彙知識架構的支持。詞彙本體知識包括詞的詞義、詞義的定
           at	Buffalo                                                                                                                                                                        義及相關概念的一些基本性質。這些基本性質是用來了解
                                                 我們在過去二十多年發展中文處理技術,為未來的自動化知識建構打下基礎。這些基
           許鈞南 Chun-Nan	Hsu                      礎建設包含標記語料庫、句結構樹資料庫、詞彙庫、中文語法、知識地圖、廣義知                                                                                                        概念及區分詞彙概念和其它詞彙概念的。廣義知網改善了知
           Research	Fellow                                                                                                             ●  音訊處理及檢索                                            網  (HowNet)	的本體論架構,將功能詞和實詞表達在同一架構
           Computer	Science	,	University	of	Southern	  網、中文字構形資料庫、詞彙分析系統及句剖析器等。同時,我們發展了基礎的知識
           California                            擷取技巧,如專有名詞辨識,語意角色標註,以及關係之擷取等,應用到中文以及生                                                   我們的研究目標是開發多媒體音訊分析、抽取、辨識、索引                          下,詞彙知識表達區分了詞彙的語義歧義及判定句中詞彙概念
           張  復 Fu	Chang                         物文獻探勘上。我們在	2006	SIGHAN	競賽中取得中文斷詞的第一名,專有名詞辨識的                                            及檢索技術。在語音方面,我們的研究著重在語音辨識、語者                         的角色語義關係,並提供概念和概念之間最重要的關係及親疏
                                                                                                                                                                                             遠近,以進行推理及歸納的自動化運作。我們研究語義自動合
           Associate	Research	Fellow             第二名,並在	2009	BioCreative	II.5	競賽中取得基因名稱搜尋的第一名。未來,我們將                                     辨識及語音資訊檢索等,已有多篇論文發表在代表性期刊	IEEE
           Mathematical	Statistics	,	Columbia	University  整合現有知識架構,建立領域知識庫及中文詞彙知識庫。我們將連結不同的知識庫形                                          TASLP	及	ACM	TALIP	等,完成的展示系統包括影音新聞檢索系                成分解(Semantic	Composition	and	Decomposition),經由語意
                                                 成一個完整的知識網以及事件框架庫,以提高計算機推理及語言了解能力。                                                       統及語者確認系統等,我們參與	ISCSLP2006	舉辦的語者確認評                  分解機制可以將不同層次的語義知識表達化約為正規化的基本
                                                                                                                                         比,在六個參賽系統中名列第二。進行中的研究包括基於語音                         概念表達式 (Canonical	Representation)。
                                                                                                                                         屬性偵測的語音辨識、語音文件摘要、音訊內容之語者自動分
                                                ●  機器學習與資料探勘                                                                             段標記及語言模型等。在音樂方面,我們的研究著重在歌聲旋
                                                                                                                                         律抽取、哼唱式查詢及歌聲訊號模型估算等,研究成果已發表                        ●  漢字字形知識的表達
                                                 我們的研究集中於機器學習以及其在文件影像分析,光學文字辨識,及生物資訊學上                                                   在	IEEE	TASLP、IEEE	TMM	及	Computer	Music	Journal	等,完成
           研究技師人員                                的應用。我們也將繼續目前的工作來推廣機器學習在大型問題上的使用。我們正在處                                                   的展示系統包括哼唱式歌曲檢索系統及歌手辨識系統等,我們                         建立漢字構形資料庫以記錄漢字形體的知識,這些知識包括:
                                                 理的大型問題有三種:大型的訓練樣本,大型的類別數量,以及大型的	(不相干的)	特                                                                                                    古今文字的字形演變、字形結構及不同字形間的使用關係。這
                                                 徵。針對第一種問題,我們提出了以決策樹分割的方法來訓練非線性支持向量機,可                                                   參與	MIREX2009	的自動音樂標籤評比,在12個參賽系統中獲得                  個資料庫的主要特色如下:
           莊德明 Der-Ming	Juang                                                                                                            第一。未來除持續改進現有技術和系統外,將進行音樂特徵分
           Assistant	Research	Engineer           以提升訓練速度達數百倍,甚至數千倍,而依然維持相當的測試正確率。這個方法可                                                   析、開發人聲分離、音樂架構分析及音樂摘要技術,以改進音                         (1)	 銜接古今文字以反映字形源流演變。
           The	Institute	of	Computer	Management,	National	  以推廣到同樣有效的森林分割方法,可使用於大型數量以及大型類別的資料上,以便                                                                                            (2)	 收錄不同歷史時期的異體字表,以表達不同漢字在各個歷
           Tsing	Hua	University                  同時解決第一與第二種問題。針對第三種問題,我們正在實驗一種新方法,使用多重                                                   樂資料庫的管理及檢索效能。                                           史層面的使用關係。
                                                 的特徵子集合來排列以及選取特徵,可以加快計算速度,提升測試正確率,增加排列                                                                                                       (3)  記錄不同歷史時期的文字結構,以呈現漢字因義構形的特
                                                 在不相干特徵之前的關鍵特徵數量,以及被選取的特徵所包含的關鍵特徵的數量。除                                                                                                           點。
                                                 了發展新方法,我們也將所撰寫的軟體以及所製造的資料公布於網路上,以方便使用                                                 ●  中文自然語言問答系統                                         (4)	 使用構字式及風格碼來解決古今文字的編碼問題。
                                                 者。                                                                                      在自然語言問答系統中,使用者可用口語表達更豐富的詞與詞
                                                                                                                                         之間的關係,如「請問誰是美國總統?」。這種系統對於資訊
                                                                                                                                         檢索的效率與資訊的普及都有很大幫助。我們結合了實驗室各
                                             2. 知識應用
                                                                                                                                         種中文技術,如問題理解、文句擷取、專有名詞辨識、候選答
                                                我們所發展的注音自動轉國字的軟體─自然輸入法,正確率接近96%,曾獲得1993年傑出                                               案排序、語意模板等,研發出一套問答系統。這套系統在2005
                                                中文資訊產品獎,在台灣有百萬以上的使用者。在2000年3月10號推出網路免費	 down-                                            年以及2007年日本東京	NTCIR	舉辦的中文問答系統競賽中,連
                                                load	的版本後,一週之內有兩萬多人在	PC	Home	網站下載,高居所有下載軟體的第二                                            續兩屆獲得第一名,正確率超過五成。未來我們將考慮更複雜
                                                名,目前總下載次數已接近百萬。我們發展的『智慧型知識表達系統』(InfoMap),可以                                              的問題形式,以及對話系統。
                                                適用於許多應用系統的知識管理。我們正在發展事件框架庫,做為語言理解與學習的基
                                                礎。除了文本處理外,也將發展口語處理技術以支援不同的應用系統,其中包括知識為
                                                本的語言處理技術、從文本及影音資料檢索及抽取訊息的技術、智慧型跨語檢索及電腦                                                 ●  漢字知識的整合及應用
                                                輔助教學技術等。
                                                                                                                                         建立文字學知識的整合及應用平台,平台的主要特色如下:
                                                                                                                                         (1)	 提供字形、字音等多樣的檢字方式。
                                                                                                                                         (2)	 處理缺字的應用需求,包括缺字的呈現、檢索、輸入、登
                                                                                                                                            錄及列印。
                                                                                                                                         (3)	 連結平台內外的文字知識網站。
                                                                                                                                         (4)	 提供客製化設定以符合個人需求。




      26                                                                                                                                                                                                                                27
   21   22   23   24   25   26   27   28   29   30   31