building top center imagetop right image  
bottom left bottom center 所慶特別活動
資訊所廿週年回顧與感言
20年大事記
資深同仁專訪
專題演講者
十九年前那幾天...
   
 

謝清俊先生之簡介與訪談簡要

----------------

謝清俊先生於2001年8月自本所退休,但仍為兼任研究員,續主持本所文獻處理實驗室的工作,並協助本院規劃與執行國科會自2002年1月起為期五年的「數位典藏國家型科技計畫」,為計畫辦公室主任。謝先生於1983年至中央研究院,擔任資訊科學研究所研究員。於同年受前院長吳大猷先生囑託籌備計算中心,並於1983至1990年兼計算中心籌備處主任至主任一職。謝先生的研究工作涵蓋中文資訊處理、中文圖書館自動化、古籍資料庫、數位典藏、以及資訊技術對社會影響。於謝先生退休前夕(2001年7月26日),我們與他進行了一次訪談。茲摘錄部份訪談內容如下,以饗讀者。

----------------

問:你在中文資訊處理的基礎工作,從早期的中文輸入與輸出系統,字與詞的頻率統計,到近期的中文缺字處理系統。請你就「字形」(glyph)處理方面,說明目前的進展以及未來的展望?

中文輸入與輸出涉及的是中文的構字問題。我是花了一些時間來瞭解文字學,把文字學中用古文所寫的東西,用科學、數學的方式表達出來,也就是等於說把文字學中的科學結構用現在的數學、邏輯語言表達出來,一旦轉換成現在的數學語言,計算機就可以處理這些文字。

這也涉及了中文字形交換碼的問題。中文字形交換碼的問題在於中文與外國語文的結構並不相同。外國語文的結構是詞(word),詞之下就是字母(alphabet)。字母是符號,本身沒有意義,經過一個次序組織出詞之後,才有意義。詞的意義多半是由音延伸而來。在這個情形下,外國語文的好處是很簡潔,字母是一個封閉集合(closed set),數量有限,所以數學結構表達起來非常容易。中文則有豐富的語意成分,是以知識來表達所構成的對象,而不是以表音為主。中文文字就是將古代的日常生活用圖像表達出來,裡頭也同時包含了語音與語意兩個部分。在這個基礎上,中文的文字並非是一個封閉集合,而是一個開放集合(open set)。

外國人並不懂中文的這套結構,因此當他們開始處理中文編碼時,直接就把中文字跟字母對應起來。將中文字跟字母對等是有問題的,因為中文字是開放集合,把開放集合納入封閉集合的結構中,有些字一定處理不了。有些字處理不了好像不是什麼大問題,但卻是非常嚴重的文化歧視。一直到今日,中文交換碼的最大問題都還是想把開放集合當作封閉集合來處理,所以不管那套系統都會有中文缺字的問題。

其實中文字是有封閉集合的,就是當初造字時的元件(components),古代曾經將這些元件分為聲母與形母兩類,加起來約有幾千個。這個統計與分類的工作在漢朝許慎做說文解字時就統計過,說文解字歸納出五百四十個部首,但其中仍然有問題。一方面是資料量太大;許慎處理了一萬一千多個字,分析這麼大量的資料難免有錯誤之處。另一方面則受到秦始皇焚書的影響,也就是說資料收集不易。

我開始做這個工作時,就是想承續這些文字學的努力,把中國構字的法則找出來,希望將中文構字用現代科學、數學的語言表達出來。最初我是在交大任職時處理這項工作,不過那時候受到電腦處理容量的限制,例如說記憶體只有八千位元(8k bytes)。分析字根時得盡量節省計算資源,因此必須忽略一些細節。到了院裡的時候,我就把這個工作再重新整理一遍,將過去忽略的細節重新補足,以忠實中國文字學的結構。最近我們發展出來的系統裡,大概包含了1200個字根,這些字根就是中國字形的最基本結構,字根與字根間則透過一些規則來結合成文字。另外,現在的系統也考慮到使用者的方便運用,因此我們將字根擴展到約4000個元件,讓任何人使用時只須做一個層次的分析,只要考慮一個組合運算,就能直觀的知道一個字是如何組成。

我們用這個系統來處理缺字,這個系統最終將是中文交換碼的下一代,因為所有現在的交換碼都是封閉集合,而我們的系統是一套產生系統(production system)。透過這個系統我們已經可以處理六萬多個字,而現行的任何系統都無法處理六萬多字。這當中,文字是用構字式來表達,而構字式是唯一的。只要是構字式不同,就是不同的字(雖然一個字可能有不同的構字式,但都可以經過計算機的化約歸納到一個標準式),字和字就可以比對了。

透過這套系統,可以做中文字的交換。它和傳統編碼的方式完全是兩套不同的思路,但可以附加在目前任何編碼系統上,都沒有問題。現行的系統只要加上一個後處理(post process)運算來識別沒有碼的那些缺字,無須更改原來的編碼。譬如大五碼(big 5),可以加上構字式的系統,其中所有的字根都用大五碼的編碼,但缺字就用構字式來表達。目前何建明的實驗室做了一個網站,根據這些構字式就可以到網站上去下載那些字形。不只如此,這套系統也可以延伸到處理日文、韓國、越南的漢字,甚至於中國各個朝代的文字,在時、空上都沒有問題。

問:你曾經參與「中文資訊交換碼」(Chinese Character Code for Information Interchange, CCCII)的制訂與推廣,並規劃與建立中央研究院圖書館自動化系統。請你就這方面,作一些回顧?「中文資訊交換碼」的前景為何?

中文資訊交換碼最初是由我領導的小組所制訂的。1979年11月時,美國為了處理東亞文字,想要訂定一套標準碼,就由美國國會圖書館委託史丹佛大學,由John Haeger所負責的研究圖書館組織(Research Library Group, RLG)召集一個會議。那時國科會的處長王紀五要我去參加這個會。在那個會議中,我發現由於當時全世界只有一套日本的JIS交換碼可處理漢字。如果我們沒有一套中文資訊交換碼的話,可能日本的交換碼就會變成全部漢字的標準,我覺得這是個非常嚴肅的事。

那時我原本就在收集資料,1979年教育部也剛好發表了一份4808個常用字的字集,使我們可以開始做中文資訊交換碼的工作,不過在召開RLG會議的時候,我們還沒有開始進行。而美國其實是非常急於要訂立一套標準的。因為在軍事以及其他的用途上,美國必須用計算機處理中、日、韓文等東方語文資料,其中最大的問題即在中文字的處理。他們打算在第二年(1980)三月在華盛頓召開亞洲研究學會年會時,決定採取哪套編碼系統。

為了避免中文系統採用日本漢字的編碼方式,在RLG會議時,我就說我們正在做中文編碼的工作。一回國,我就跟當時電機工程學會會長李國鼎先生報告,我對他說,這是很嚴重的問題,牽涉到我們的文化的問題。舉例來看,清朝末年編了一本電報號碼本,到那時還是中文字唯一的編碼標準,這個電報號碼本編得很糟糕,所以用起來很不方便。外國人在設計ISO 646(ISO 7-bit coded character set for information interchange,字元集資訊交換碼)時,中國人沒有參與,所以計算機根本沒有辦法處理中文。這個標準如果不制訂的話。我們會對不起以後我們的子孫。

李國鼎聽了很贊同,就找了一些基金會,募了三百萬台幣,要我組織一個小組。因此我找了一些文字學家,如金祥恆、趙友培、潘重規以及當初的中央圖書館館長王振鵠等,以及一些圖書館方面的教授等。1979年12月25日正式成立了「國字整理小組」,花了三個月的時間,將4808個字的字集編碼作出來。當時張仲陶教授和我一起做這個事,他那年沒有回家過年,就在台灣技術學院的計算中心幫我跑這些資料。我上飛機時,帶了幾本上去,裝訂的膠都還沒有乾,拿在手上還是軟的。

就是在這個情形下,我在1980年3月,到美國報告。我在上面報告說明時,底下有美國圖書館界的編碼專家、ANSI(美國國家標準局)的編碼專家、語言方面的專家等,考了我一個早上。這四個小時比我考博士論文還辛苦。之後,中午吃飯時,他們恭喜我說,決定採用我們這套系統,不用日本的系統。日本派了七、八個代表去,但最後日本的系統沒被採用,非常失望的回去了。

問:中文資訊交換碼為什麼沒有成為國家標準?

這是很辛酸的事情,大部分的事情已經都收錄在1989年出版的《國字整理小組十年》一書中。其中一個問題是,在做中文資訊交換碼時,我把簡體字也都收錄進來,很多人就罵我「與匪認同」。李國鼎把我找去,我很簡單的說:「我們要不要處理匪情資料?」他說要。我說:「我們不是說反攻大陸以後要把簡體字跟正體字做一個對照,要做很多文宣,這些工作需不需要計算機幫忙?」他說要。「所以我把簡體字放進去。」聽了之後,李國鼎就幫我把這些事都檔掉。

但後來有一些人,認為中文編碼不過是把中文排列起來給個編號而已,為什麼要給你做?他們批評說,CCCII用三個bytes來做編碼是不對的,三個bytes太浪費空間,我們用兩個bytes就有65536個組合,使用其中一部份編一萬多字就夠了。實際上是他們並沒有搞清楚什麼是資料碼(data code),什麼是控制碼(control code),結果編出來的碼裡頭沒有控制碼。最後的結果是完全不能使用,後來修改時,還是把CCCII一步一步學過去。當時的一些科技大老要求我就這兩套編碼做妥協,說新編一個系統,一部份採取我的結構,另一部份採取他的結構。我直接拒絕,因為兩套系統有很多不相容之處。在我拒絕之後,他們就弄出了一套CNS(國家標準交換碼),但是CNS至今並沒有人使用。今日用的是big5,而非CNS。至於big5,是民間發展出來的,業界要發展中文系統,但CNS不能用,又不能用謝清俊的,因為使用謝清俊的就會得罪那些大老。只好弄一個big5出來。

CCCII一直維護到三、四年前張仲陶教授過世以前,之後我也不再做維護了。我認為,CCCII從1979年發展出來,經過20多年後,階段性的任務已經完成,沒有必要再維持下去。而且現在這個缺字系統出來,就可以取代CCCII了。

問:中研院在古籍資料庫的工作,很早就開始了。請問你在古籍資料庫方面的工作經驗與心得?是哪些因素驅使你進行這些工作?

我離開台灣技術學院(編注:現台灣科技大學)到中研院的主要目的,就是想做古籍資料庫。當時外國可以看到很多文史方面的工作已經開始進行,中國卻沒有。1983年我到院裡來,就跟史語所毛漢光先生講好到這裡來做古籍的事。但是來不到半年就被吳大猷先生抓去做計算中心的籌備工作。當時中研院的計算環境很差,除了資訊所有一些電腦外,大概就只有植物所有一台迷你電腦(mini computer),大概是HP 2100 系列的,其他沒有一個所有電腦。吳大猷先生跟我說得語重心長。他說他雖然不懂電腦,但知道以後研究不用電腦的話,研究院的學術地位在世界上會受到非常大的挑戰。這句話說的很沈重的,因為他一直說他不需要用電腦做研究,他只需要一枝鉛筆一張紙就夠了。吳大猷先生做研究確實是如此,但是對年輕人就不一樣,他也瞭解電腦對研究院的發展很重要。

這件事我到今天仍然不瞭解是誰推薦我去的,因為之前我根本不認識吳大猷先生。我跟吳大猷先生說,我的想法是要盡全力幫忙文史的人。我說,自然科學和生命科學我們不用照顧他們,機器給他們用就好了,但是文史方面必須要有人照顧他們。接了計算機中心主任之後,我就利用這個機會,把我想做的二十五史的資料做出來。從那時一直到我卸任之前,計算機中心的資源幾乎百分之七十在支持文史,一直到現在我也覺得這個策略沒有錯,因為電腦買了,對自然科學、生命科學的人來說,他們很容易的就可以使用,但是文史的非有人帶不可。

在計算機中心時,我就開始做古籍電子化的工作,研究院開始做電子文獻時,外國剛起步不到兩年。我們從1985開始做二十五史全文資料庫,國外是1984年年底開始有一些全文資料庫出現,所以事實上我們做全文資料庫是滿早的,確實相當有前瞻性。比起我們的計算機科學,技術跟國外至少五到十年的差距來說,是少得多了。

從文史的角度來思考,其實和從計算機科學的角度來思考是不一樣的。舉個例來說,訂二十五史全文資料庫的規格時,我手下有一些人,拿了一些國外的論文來跟我說,國外的全文資料庫的檔案結構都是一頁文稿一個檔案,你為什麼要堅持一個段落做一個單位?為什麼一定要堅持要保留二十五史原書的段落、行數跟字數?我跟他們講道理講不通,他們從計算機的技術來看認為我是在找麻煩,但是我認為那是錯的。這是因為我認為結構分成好多種,版面結構是一種,文章內容結構是另外一種,我們必須要知道哪些資訊是做全文資料庫時必須保留下來的。這到今天都是一個好問題。

這個制訂出來規格其實是非常領先的,當時SGML(Standard Generalized Markup Language,通用標示語言語法)正在發展,SGML是1986正式發展出來的,我們在1985已經訂出了一個自己的標示語言,一直到今天計算機中心還在使用。後來上網路時,才將這套系統對應到HTML(HyperText Markup Language,超文件標示語言)格式。我們那套標示語言和SGML不一樣。雖然SGML功能較強,但也比較複雜。我們的系統用拿來做二十五史也就夠了。

bottom left bottom center 所慶特別活動
資訊所廿週年回顧與感言
20年大事記
資深同仁專訪
專題演講者
十九年前那幾天...
    Institution of Information Science, Academia Sinica 2002