Page 28 - profile2014.indd
P. 28
語言與知識處理實驗室
Lab
研究人員
許聞廉 Wen-Lian Hsu 大量資訊以多媒體的形式在網路世界散佈,為了達到智慧型的資訊處理,知識
Distinguished Research Fellow 為本的訊息處理是本計劃的核心焦點,我們正在進行三個主要的長期研究課題:
王新民 Hsin-Min Wang 知識擷取,知識表達及知識應用,尤其是相關於中文的處理。
Research Fellow
古倫維 Lun-Wei Ku 一、 知識擷取
Assistant Research Fellow
我們期望由計畫中發展的語言處理技術配合擷取的知識能自動的分析WWW中
陳克健 Keh-Jiann Chen
Research Fellow 的大量文本,從中抽取語言知識及一般常識。
蘇克毅 Keh-Yih Su 1. 建構本體、語言及常識知識庫
Research Fellow
我們在過去二十多年發展了中文處理基礎建設為未來的自動化知識建構打下
基礎。這些基礎建設包含標記語料庫、句結構樹資料庫、詞彙庫、中文語
法、知識地圖、廣義知網、中文字構形資料庫、詞彙分析系統及句剖析器
等。我們將利用完成的詞彙知識架構「廣義知網」與中文剖析器來自動分析
並抽取網路文件中隱含的語言知識及領域訊息,構建概念知識架構並建立領
域知識庫及中文詞彙知識庫。我們將連結不同的知識庫形成一個完整的知識
網ConceptNet以提高計算機推理及語言了解能力。
2. 以模版技術為基礎的資訊擷取
適當的語意模版有助於從文句中擷取名詞,及其名詞間的關係。我們設計了
一種模版近似對應的方法,並採取了一種半自動學習的策略,能夠將大量使
用者標註過的語料學習後,進行模版的摘要。使得摘要過的模版應用到新的
領域也有不錯的對應率。
二、知識表達
我們將研究知識架構的基礎理論及細緻語意的表達模式。藉由分析近義詞的細
微差別來找出細緻語意的表達方式及語意的合成機制。我們將改善並整合當下
最重要的一些知識架構如詞網、知網及事件框架網,以達到較佳的整合知識表
達系統。我們也將研究知識邏輯及推理與知識結構整合的完整架構並應用於自
動推理。希冀在廣義知網的本體架構下短語或句子的語意可以由詞彙語義合成。
三、知識應用
我們所發展的注音自動轉國字的軟體─自然輸入法,正確率接近96%,曾獲得
1993年傑出中文資訊產品獎,已經普遍受到大眾的歡迎與接受。最近我們朝著
更加國際化的方向前進,以針對常用字串「搜尋」為概念,發展中英文「快打」
輸入法。未來,除了文本處理外也將發展口語處理技術以支援不同的應用系統。
1. 知識為本的中文語言處理技術
我們將發展強健型的中文結構剖析及語義分析系統,注重以概念為中心的中
文處理技術,將利用所發展的「廣義知網」詞彙知識架構及自動抽取得到的
統計、語言語法及常識訊息作為基礎知識用於分析文件的概念結構,並發展
語義自動合成技術以瞭解文件的意義。
28 研究群 Research Laboratories