Page 28 - 2017 Brochure
P. 28
究群
語言與知識處理實驗室
大量資訊以多媒體的形式在網路世界散佈,為了達到智慧 3. 中文自然語言問答系統
型的資訊處理,知識為本的訊息處理是本計劃的核心焦點, 中文自然語言問答是一項嶄新且充滿挑戰性的研究議
我們正在進行三個主要的長期研究課題:知識庫的建立, 題。 我們結合了實驗室各種中文技術,如問題理解、
自然語言理解,及知識應用,尤其是中文自然語言的處理。 文句擷取、專有名詞辨識、候選答案排序、語意模板
等,研發出一套問答系統。這套系統在 2007 年日本
(1) 自然語言知識庫 東京 NTCIR 舉辦的第二屆中文問答系統競賽中,以
55.3% 正確率蟬聯第一名。目前,這個系統已經商品
我們期望由計畫中發展的語言處理技術配合擷取的知識能 話,我們正在往流暢的對談系統努力中。
自動的分析 WWW 中的大量文本,從中抽取語言知識及ㄧ
般常識。我們在過去二十多年發展了中文處理基礎建設為 4. 專有名詞及其間關係之辨識
未來的自動化知識建構打下基礎。這些基礎建設包含標記 在文件中標註出人名、地名、機構名等專有名詞極為
語料庫、句結構樹資料庫、詞彙庫、中文語法、知識地圖、 重要,我們以機器學習為基礎所開發的專有名詞辨識
廣義知網、中文字構形資料庫、詞彙分析系統及句剖析器 系統,在 2006 SIGHAN 中文專有名詞辨識競賽中取得
等。我們將利用完成的詞彙知識架構「廣義知網」與中文 第二名。在 2009 年國際蛋白質名詞搜尋賽中,榮獲第
剖析器來自動分析並抽取網路文件中隱含的語言知識及領 一名。在近期的研究中,利用統計綱要式模型,可大
域訊息,構建概念知識架構並建立領域知識庫及中文詞彙 幅提昇專有名詞之辨識率,並可進一步推廣到名詞間
知識庫。我們將連結不同的知識庫,包含維基百科的詞條 關係之辨識。
與分類,共同形成ㄧ個完整的知識網 (ConceptNet) 以提高
計算機推理及語言了解能力。同時,目前廣義知網的基本 5. 中文文本蘊涵
知識節點 ( 義原與基本概念 ) 已全部人工對譯到英文詞網 文本蘊涵是近年來自然語言處理領域中一個新興且極
(WordNet),廣義知網的詞彙則利用自動化技術跟英文詞網 具挑戰性的題目。藉由深度的語意語法分析,系統能
(WordNet) 對譯,形成ㄧ個跨語系的知識網。 精確的辨認出兩文本之間的推論關係。本研究群整合
現有的自然語言工具及資源,研發出一套中文文本蘊
(2) 自然語言理解 涵辨識系統,在 2013 年日本東京 NTCIR,取得了第一
名的成績。
我們將研究知識架構的基礎理論及細緻語意的表達模式。
藉由分析近義詞的細微差別來找出細緻語意的表達方式及 6. 整合詞彙知識庫來表達詞彙向量
語意的合成機制。我們將改善並整合當下最重要的一些知 詞彙知識庫,如廣義知網,是將每一個詞彙將每個詞
識架構如詞網、知網及事件框架網,以達到較佳的整合知 彙的屬性與語法語義以結構化的方式加以表達,好處
識表達系統。我們也將研究知識邏輯及推理與知識結構整 在於提供清晰的解釋與穩定的應用,缺點在於人為定
合的完整架構並應用於自動推理。希冀在廣義知網的本體 義成本高且語義表達的範圍有所侷限。另一方面,深
架構下短語或句子的語意可以由詞彙語義合成。 度學習的作法則是利用大量語料訓練出每個詞彙的一
組向量,面對實際的 NLP 問題時可以把詞彙向量當作
1. 知識為本的中文語言處理技術 後續可訓練調整的參數,提供一般化與語義表達擴張
我們將發展強健型的中文結構剖析及語義分析系統,注 的能力,缺點在於詞彙向量的解釋能力不足,也無法
重以概念為中心的中文處理技術,將利用所發展的「廣 確定詞彙向量究竟從大數據當中確實學習到的語義內
義知網」詞彙知識架構及自動抽取得到的統計、語言語 容。結合這兩者的長處非常互補且具有很高的學理價值
法及常識訊息作為基礎知識用於分析文件的概念結構, 與應用突破。我們結合知識庫與語料共同從事詞彙向
並發展語義自動合成技術以瞭解文件的意義。 量的生成,將結果發表在 EACL 2017。此外,在 IALP
2016 的預測情緒詞彙的國際競賽中,我們利用語料訓
2. 統計準則式模型 練出的詞彙向量與廣義知網的同義詞集來預測情緒維
適當的語意模版有助於從文句中擷取名詞,及其名詞間 度,在國際 32 個隊伍中奪得 valance 的冠軍,並發表
的關係。我們設計了一種模版近似對應的方法,並採 相關文章。
取了一種半自動學習的策略,能夠將大量使用者標註
過的語料學習後,進行模版的摘要。使得摘要過的「準 (3) 自然語言應用
則式模版」更為強健,應用到嶄新的領域也有不錯的
對應率。這種新的機器學習效果極佳,而且學到的知 我們所發展的注音自動轉國字的軟體―自然輸入法,正確
識提綱挈領,易於理解,錯誤分析可準確提供方向, 率接近 96%, 曾獲得 1993 年傑出中文資訊產品獎,已經普
增強系統性能,是傳統機器學習不容易做到的。 遍受到大眾的歡迎與接受。最近我們朝著更加國際化的方
26 研究群 Research Laboratories
語言與知識處理實驗室
大量資訊以多媒體的形式在網路世界散佈,為了達到智慧 3. 中文自然語言問答系統
型的資訊處理,知識為本的訊息處理是本計劃的核心焦點, 中文自然語言問答是一項嶄新且充滿挑戰性的研究議
我們正在進行三個主要的長期研究課題:知識庫的建立, 題。 我們結合了實驗室各種中文技術,如問題理解、
自然語言理解,及知識應用,尤其是中文自然語言的處理。 文句擷取、專有名詞辨識、候選答案排序、語意模板
等,研發出一套問答系統。這套系統在 2007 年日本
(1) 自然語言知識庫 東京 NTCIR 舉辦的第二屆中文問答系統競賽中,以
55.3% 正確率蟬聯第一名。目前,這個系統已經商品
我們期望由計畫中發展的語言處理技術配合擷取的知識能 話,我們正在往流暢的對談系統努力中。
自動的分析 WWW 中的大量文本,從中抽取語言知識及ㄧ
般常識。我們在過去二十多年發展了中文處理基礎建設為 4. 專有名詞及其間關係之辨識
未來的自動化知識建構打下基礎。這些基礎建設包含標記 在文件中標註出人名、地名、機構名等專有名詞極為
語料庫、句結構樹資料庫、詞彙庫、中文語法、知識地圖、 重要,我們以機器學習為基礎所開發的專有名詞辨識
廣義知網、中文字構形資料庫、詞彙分析系統及句剖析器 系統,在 2006 SIGHAN 中文專有名詞辨識競賽中取得
等。我們將利用完成的詞彙知識架構「廣義知網」與中文 第二名。在 2009 年國際蛋白質名詞搜尋賽中,榮獲第
剖析器來自動分析並抽取網路文件中隱含的語言知識及領 一名。在近期的研究中,利用統計綱要式模型,可大
域訊息,構建概念知識架構並建立領域知識庫及中文詞彙 幅提昇專有名詞之辨識率,並可進一步推廣到名詞間
知識庫。我們將連結不同的知識庫,包含維基百科的詞條 關係之辨識。
與分類,共同形成ㄧ個完整的知識網 (ConceptNet) 以提高
計算機推理及語言了解能力。同時,目前廣義知網的基本 5. 中文文本蘊涵
知識節點 ( 義原與基本概念 ) 已全部人工對譯到英文詞網 文本蘊涵是近年來自然語言處理領域中一個新興且極
(WordNet),廣義知網的詞彙則利用自動化技術跟英文詞網 具挑戰性的題目。藉由深度的語意語法分析,系統能
(WordNet) 對譯,形成ㄧ個跨語系的知識網。 精確的辨認出兩文本之間的推論關係。本研究群整合
現有的自然語言工具及資源,研發出一套中文文本蘊
(2) 自然語言理解 涵辨識系統,在 2013 年日本東京 NTCIR,取得了第一
名的成績。
我們將研究知識架構的基礎理論及細緻語意的表達模式。
藉由分析近義詞的細微差別來找出細緻語意的表達方式及 6. 整合詞彙知識庫來表達詞彙向量
語意的合成機制。我們將改善並整合當下最重要的一些知 詞彙知識庫,如廣義知網,是將每一個詞彙將每個詞
識架構如詞網、知網及事件框架網,以達到較佳的整合知 彙的屬性與語法語義以結構化的方式加以表達,好處
識表達系統。我們也將研究知識邏輯及推理與知識結構整 在於提供清晰的解釋與穩定的應用,缺點在於人為定
合的完整架構並應用於自動推理。希冀在廣義知網的本體 義成本高且語義表達的範圍有所侷限。另一方面,深
架構下短語或句子的語意可以由詞彙語義合成。 度學習的作法則是利用大量語料訓練出每個詞彙的一
組向量,面對實際的 NLP 問題時可以把詞彙向量當作
1. 知識為本的中文語言處理技術 後續可訓練調整的參數,提供一般化與語義表達擴張
我們將發展強健型的中文結構剖析及語義分析系統,注 的能力,缺點在於詞彙向量的解釋能力不足,也無法
重以概念為中心的中文處理技術,將利用所發展的「廣 確定詞彙向量究竟從大數據當中確實學習到的語義內
義知網」詞彙知識架構及自動抽取得到的統計、語言語 容。結合這兩者的長處非常互補且具有很高的學理價值
法及常識訊息作為基礎知識用於分析文件的概念結構, 與應用突破。我們結合知識庫與語料共同從事詞彙向
並發展語義自動合成技術以瞭解文件的意義。 量的生成,將結果發表在 EACL 2017。此外,在 IALP
2016 的預測情緒詞彙的國際競賽中,我們利用語料訓
2. 統計準則式模型 練出的詞彙向量與廣義知網的同義詞集來預測情緒維
適當的語意模版有助於從文句中擷取名詞,及其名詞間 度,在國際 32 個隊伍中奪得 valance 的冠軍,並發表
的關係。我們設計了一種模版近似對應的方法,並採 相關文章。
取了一種半自動學習的策略,能夠將大量使用者標註
過的語料學習後,進行模版的摘要。使得摘要過的「準 (3) 自然語言應用
則式模版」更為強健,應用到嶄新的領域也有不錯的
對應率。這種新的機器學習效果極佳,而且學到的知 我們所發展的注音自動轉國字的軟體―自然輸入法,正確
識提綱挈領,易於理解,錯誤分析可準確提供方向, 率接近 96%, 曾獲得 1993 年傑出中文資訊產品獎,已經普
增強系統性能,是傳統機器學習不容易做到的。 遍受到大眾的歡迎與接受。最近我們朝著更加國際化的方
26 研究群 Research Laboratories