中央研究院 資訊科學研究所

研究群

友善列印

語言與知識處理實驗室

研究人員

相關網站

文獻處理實驗室詞庫小組實驗室機器學習與分類實驗室智慧型代理人系統實驗室語音語言與音樂處理實驗室自然語言理解實驗室

研究群介紹

大量資訊以多媒體的形式在網路世界散佈,為了達到智慧型的資訊處理,知識為本的訊息處理是本計劃的核心焦點,我們正在進行三個主要的長期研究課題:知識庫的建立,自然語言理解,及知識應用,尤其是中文自然語言的處理。

(1) 自然語言知識庫

我們期望由計畫中發展的語言處理技術配合擷取的知識能自動的分析 WWW 中的大量文本,從中抽取語言知識及一般常識。我們在過去二十多年發展了中文處理基礎建設為未來的自動化知識建構打下基礎。這些基礎建設包含標記語料庫、句結構樹資料庫、詞彙庫、中文語法、知識地圖、 廣義知網、中文字構形資料庫、詞彙分析系統及句剖析器等。我們將利用完成的詞彙知識架構「廣義知網」與中文剖析器來自動分析並抽取網路文件中隱含的語言知識及領域訊息,構建概念知識架構並建立領域知識庫及中文詞彙知識庫。我們將連結不同的知識庫,包含維基百科的詞條與分類,共同形成一個完整的知識網(ConceptNet) 以提高計算機推理及語言了解能力。同時,目前廣義知網的基本知識節點( 義原與基本概念) 已全部人工對譯到英文詞網 (WordNet),廣義知網的詞彙則利用自動化技術跟英文詞網 (WordNet) 對譯,形成一個跨語系的知識網。

(2) 自然語言理解

我們將研究知識架構的基礎理論及細緻語意的表達模式。藉由分析近義詞的細微差別來找出細緻語意的表達方式及語意的合成機制。我們將改善並整合當下最重要的一些知識架構如詞網、知網及事件框架網,以達到較佳的整合知識表達系統。我們也將研究知識邏輯及推理與知識結構整合的完整架構並應用於自動推理。希冀在廣義知網的本體架構下短語或句子的語意可以由詞彙語義合成。

1. 知識為本的中文語言處理技術
我們將發展強健型的中文結構剖析及語義分析系統,注重以概念為中心的中文處理技術,將利用所發展的 「 廣義知網 」 詞彙知識架構及自動抽取得到的統計、語言語法及常識訊息作為基礎知識用於分析文件的概念結構,並發展語義自動合成技術以瞭解文件的意義。

2. 統計準則式模型
適當的語意模版有助於從文句中擷取名詞,及其名詞間的關係。我們設計了一種模版近似對應的方法,並採取了一種半自動學習的策略,能夠將大量使用者標註過的語料學習後,進行模版的摘要。使得摘要過的「準則式模版」更為強健,應用到嶄新的領域也有不錯的對應率。這種新的機器學習效果極佳,而且學到的知識提綱挈領,易於理解,錯誤分析可準確提供方向,增強系統性能,是傳統機器學習不容易做到的。

3. 中文自然語言問答系統
中文自然語言問答是一項嶄新且充滿挑戰性的研究議題。 我們結合了實驗室各種中文技術,如問題理解、文句擷取、專有名詞辨識、候選答案排序、語意模板等,研發出一套問答系統。這套系統在2007 年日本東京NTCIR 舉辦的第二屆中文問答系統競賽中,以 55.3% 正確率蟬聯第一名。目前,這個系統已經商品話,我們正在往流暢的對談系統努力中。

4. 專有名詞及其間關係之辨識
在文件中標註出人名、地名、機構名等專有名詞極為重要,我們以機器學習為基礎所開發的專有名詞辨識系統,在2006 SIGHAN 中文專有名詞辨識競賽中取得第二名。在2009 年國際蛋白質名詞搜尋賽中,榮獲第一名。在近期的研究中,利用統計綱要式模型,可大幅提昇專有名詞之辨識率,並可進一步推廣到名詞間關係之辨識。

5. 中文文本蘊涵
文本蘊涵是近年來自然語言處理領域中一個新興且極具挑戰性的題目。藉由深度的語意語法分析,系統能精確的辨認出兩文本之間的推論關係。本研究群整合現有的自然語言工具及資源,研發出一套中文文本蘊涵辨識系統,在2013 年日本東京NTCIR,取得了第一名的成績。

6. 整合詞彙知識庫來表達詞彙向量
詞彙知識庫,如廣義知網,是將每一個詞彙將每個詞彙的屬性與語法語義以結構化的方式加以表達,好處在於提供清晰的解釋與穩定的應用,缺點在於人為定義成本高且語義表達的範圍有所侷限。另一方面,深度學習的作法則是利用大量語料訓練出每個詞彙的一組向量,面對實際的NLP 問題時可以把詞彙向量當作後續可訓練調整的參數,提供一般化與語義表達擴張的能力,缺點在於詞彙向量的解釋能力不足,也無法確定詞彙向量究竟從大數據當中確實學習到的語義內容。結合這兩者的長處非常互補且具有很高的學理價值與應用突破。我們結合知識庫與語料共同從事詞彙向量的生成,將結果發表在EACL 2017。此外,在IALP 2016 的預測情緒詞彙的國際競賽中,我們利用語料訓練出的詞彙向量與廣義知網的同義詞集來預測情緒維度,在國際32 個隊伍中奪得valance 的冠軍,並發表相關文章。

(3) 自然語言應用

我們所發展的注音自動轉國字的軟體―自然輸入法,正確率接近96%, 曾獲得1993 年傑出中文資訊產品獎,已經普遍受到大眾的歡迎與接受。最近我們朝著更加國際化的方向前進,以針對常用字串「搜尋」為概念,發展中英文「快打」輸入法。未來,除了文本處理外也將發展口語處理技術以支援不同的應用系統。

1. 情感分析與意見探勘
主觀資訊的分析是自然語言處理中最具應用性的研究領域之一,且相關技術需深入理解文本內容及特定領域知識。我們在新聞、部落格、網路論壇、評論、讀者回應、對話及短訊文本中研究意見、情感、主觀性、表情、情緒、觀點等資訊,並同時為中文及英文文件,研發分析主觀資訊的資源與技術。資源方面,我們建立了中文情感分析最完整的套件 CSentiPackage,其中包含辭典、語料、計分工具,與深度學習的社群網路文本分析演算法UTCNN;技術方面,我們不僅發展統計機率模型,更開發深度學習的情感分析技術,建立了網路貼文的情感與意見視覺化系統Feelit 與WordForce、臉書短訊情感偵測之手機應用程式EmotionPush、協助母語為中文之英語學習者以英文表達情感的寫作輔助系統RESOLVE、以及學習混淆字的例句推薦系統GiveMeExample,這些系統都達到相當好的效能。我們將基於過去所發展的各項技術、持續提升深度情感分析之效能並將情感分析技術帶入人類生活的各種情境中。

2. 語意導向式的機器翻譯
我們採用語法深層結構,然後在每個詞上附著其詞意,並在樹狀結構的每個節點上標註其語意格位。我們使用一個整合式的統計模型找出最佳之語法深層結構、詞意,及語意格位的組合。在得到源始端的語意正規型式後,我們利用在最佳路徑上自動學習的參數及模版,產生對應的目標端語意正規型式及最後的句子。除此之外,對每一個無法產生對應結構之句子,我們將生成一個在搜尋柱內之替代路徑,使其具有最大之指定函數值(基於BLEU 分數及可能機率值)。

3. 機器閱讀
我們將用之前所建立之不同分析模組(如中文分詞、句法剖析、語意角色標註、邏輯型式轉換等),來建立一個中文自然語言理解系統。我們會首先為這個長期的研究計劃建立一個中文機器閱讀程式,使本計劃可以用閱讀測驗來評估。我們將從國小課本開始,然後再進一步到中學課本,最後到專業智慧型問答系統。

4. 口語處理
我們目前的研究課題包括說話人辨識、口語語言辨識、語音轉換和語音文件檢索/ 摘要。最近的成果包括基於局部線性嵌入的語音轉換和後置濾波方法,用於語音/ 說話人辨識的鑑別式自動編碼器,以及用於語音文件檢索/ 摘要的段落嵌入學習方法。實驗室成員陳冠宇博士以發表在COLING2016 的語音文件摘要論文獲得科技部105 年度博士後研究人員學術著作獎。進行中的研究包括用於口語/ 方言/ 口音辨識的子空間神經網路,多對一/非並行語音轉換,以及基於神經網絡的語音文件檢索/ 摘要。

手機上的中英文快打輸入法 Déjà vu
圖:手機上的中英文快打輸入法 Déjà vu。