Page 18 - profile2012.indd
P. 18

Research Laboratories  研究群



                                                                                                                                                                        資料處理與探勘實驗室


                         Data Management and




                            Information Discovery                                                                                     Laboratory




          研究人員


             陳孟彰 MengChang Chen        陳銘憲 Ming-Syan Chen        許鈞南 Chun-Nan Hsu          張原豪 Yuan-Hao Chang                         葉彌妍 Mi-Yen Yeh           楊得年 De-Nian Yang          廖弘源 Hong-Yuan Mark Liao
             Research Fellow           Distinguished Research Fellow  Research Fellow      Assistant Research Fellow                  Assistant Research Fellow  Assistant Research Fellow   Research Fellow



               研究群介紹


             在 資料爆炸的時代裡,各種資料,例如感應器資料、軌跡                          或是離線執行的摘要與分群演算法。我們也設計了相似                                             3. 適地性資料收集平台與應用
             資料、交易資料、多媒體資料,正以飛快的速度時時刻刻                           資料搜尋演算法,可運用在單一或是多重時間串流下,並
             產生。目前硬體與網路高質與量且價錢相對便宜,是最佳                           同時考量各種限制條件,例如:時間資料流分散於不同地                                            適地性資料可用來探勘出有用的資訊以支援或強化各種應用,或解決困
             時刻來發展相關研究議題,以善用這些資料來改進現有服                           點、資料含有隨機誤差等雜訊、考慮各種不同相似性量測                                            難的位置相關之問題。然而,從一般使用者身上擷取大量的適地性資料
                                                                                                                                                                                                                  17
             務,或解決目前無解的問題。所以本研究小組的主要目標                           方法等。我們嘗試開發出軌跡資料探勘與搜尋演算法,可                                            仍然存在著各種難題與挑戰。在這份研究專案中,我們提出一個PLASH                                   With 10  bytes of web-
             在於起始相關創新研究以達科學與技術的卓越性。目前我                           以從龐大的歷史軌跡資料中擷取出有用的資訊。                                                平台,用以協助適地性服務(LBS)提供者方便地部署與分享他們的應用服                                  based information, large
             們著重於以下研究領域:(1)有效收集、表現、儲存、與處                                                                                              務,如此,一般使用者將可以更直接且更方便地使用這些應用服務來貢
             理大量各式資料,(2)探討資料探勘技術以有效率、有效益                         2. 社群網路分析與查詢處理                                                       獻出自己的位置相關資料。這些特性是主要有別於傳統位置感知服務的                                     collections of scientific
             來發現有價值的知識。目前我們研究的議題包括:(1)時間                                                                                              創新之處。                                                               and sensor-based data,
             序列資料分析與探勘,(2)社群網路分析與查詢處理,(3)適                       隨著社群應用普及與興盛,社群網路資料量目前正迅速地
             地性資料收集平台與應用,(4)資料中心儲存系統設計。各                         成長。在社群網路柘樸分析中,列舉所有可能之子圖模式                                            兼顧到擴展性與相容性,此PLASH平台提供一個圖形使用者介面(GUI)                                 skyrocketing multimedia
             計畫簡述於下:                                             乃不切實際,且目前的研究多著重於同質性社群網路之分                                            之操作環境,提供使用者拖曳建構自己的LBS應用,系統將直接在智慧                                    and location-based data, the
                                                                 析。然對於異質性社群網路,目前同質性社群網路之拓樸                                            型手機與PLASH伺服器產生相對應的程式碼內容。此平台亦允許使用者
             1. 時間序列資料的分析與探勘                                     分析法並無法適用,且由於其節點與連結會存在多種類型(                                           貢獻自己的軟體元件,供其他使用者混搭出整合式的LBS應用,然而不                                    great challenge is all about
                                                                 例如節點之身份,連結之關係),故異質性社群網路之拓樸                                           可避免的,此做法也將挾帶著潛藏的資訊安全性問題與其他系統風險。
             時間序列可視為以時間為索引排序的連續資料。由於許多                           分析仍為十分困難之研究議題。此外,在社群網路中,查                                            從PLASH平台收集而來的資料,將可用來做進一步的分析,以強化既有                                   the unfathomable amount of
             種資料都可以用時間序列的形式來表示,故時間序列分析                           詢處理與最佳化之相關研究仍在剛起步之階段。對於複雜                                            的應用服務或支援更困難的任務。                                                     information being generated,
             被廣泛的應用在各個領域上。例如:感測器每小時所記錄                           之社群網路架構與多種可能的節點、連結參數設定,在短
             的資料、金融市場上每日產生的交易資料以及透過具衛星                           暫的時間內求得符合多種限制之查詢答案,乃是一個具挑                                            4. 資料中心儲存系統設計                                                       stored, discovered and
             定位功能的行動設備的移動軌跡記錄等。透過分析與挖掘                           戰性之研究議題。                                                                                                                                 utilized on the Internet.
                                                                                                                                      近年來由於行動運算系統的數量大幅成長,其已成資訊探勘的重要資訊
             時間序列資料,我們不但能夠觀察到資料的特性,更能在
             其中發現對後續服務與應用有所幫助的寶貴知識。                              從大量社群網路資料中求得常用模式,對社群服務與應用                                            蒐集平台。這些行動運算系統通常採用快閃記憶體為其儲存系統,因此
                                                                 十分重要。對於此研究議題,我們已探討社群網路本質上                                            快閃記憶體已成為行動運算系統中重要的儲存媒體,並被廣泛地使用在
             本研究的目的在設計有效率的演算法以找出同一條時間序                           之特性,如節點與連結的類型分布,並已研究各式取樣演                                            不同的領域。近年來,快閃記憶體為主的固態硬碟已成為取代傳統硬碟
             列之內或是多條序列彼此之間有意義的樣式和與其他有趣                           算法,使所取出的樣本能忠實反映整個社群網路之特性。                                            的熱門產品,同時企業也在新一代的資料中心設計上採用快閃記憶體。
             的知識,並同時考量實務應用中所存在的各種條件限制。                           在未來我們將設計有效之可適性異質社群網路取樣演算                                             另外,新的儲存媒體如相變化記憶體也提供儲存系統在設計上的新可
             為了能處理不斷增加、高維度且資料量龐大的資訊,我們                           法,以期能在求得子圖模式與網路特性之同時,並得到角                                            能。
             必須開發高效率且同時能有效地找出各種樣式的方法。時                           色群體偵測成果。社群查詢對於未來的社群應用十分具有
             間序列分析可被廣泛的應用在各個領域上。例如:我們                            潛力。我們已經提出了一種新的社群查詢,在給定社群網                                            我們的研究主要著重在提升儲存系統的資料存取速度、資料可靠性及能
             可以分析股票交易資料,把具有共同變化趨勢的股票組合                           路與每個使用者之時程,允許查詢者能夠指定群體大小、                                            耗問題。我們透過研究作系統的檔案系統及存儲裝置的管理韌體來提出
             提供給交易員做為決策參考。另外,透過分析人與車輛之                           活動時間長度、群體內熟悉程度,以自動安排與建議最適                                            新的設計以解決上述問題。例如:我們開發新的快閃記憶體檔案系統,
             衛星定位軌跡資料,可用來了解人們行動與駕駛的行為模                           合之一個群體,其符合查詢者指定之群體大小、熟悉程                                             以提升行動運算系統的資料可靠性及資訊讀寫效能;同時我們提出新的
             式,進而發展出更好的位置感知服務或是作為城市規劃的                           度,以及群體中每個成員擁有之共同時間。在未來中,我                                            整合管理機制及資料檢索機制來節省資料中心的能耗問題。未來我們將
             參考。目前我們已針對多重時間序列串流研發出可在線上                           們將繼續提出不同之查詢問題並設計有效查詢最佳化演算                                            研究新的技術(如資料去重覆性技術)並整合新的儲存媒體並來提升資料
                                                                 法與技術,以期能在較短計算時間內得到最佳解或近似解。                                           中心的效能,以解決以傳統資料中心所面臨的挑戰。






               研究群
         18    Research Laboratories
                                                                                                                                                                                                                                            19
   13   14   15   16   17   18   19   20   21   22   23