Page 24 - profile2014.indd

P. 24

多媒體科技形塑我們的未來

多媒體技術實驗室

Lab

研究人員
廖弘源 Hong-Yuan Mark Liao 多媒體技術與生物科技及奈米科技，被公認為是二十一世紀最具影響力的科技
Distinguished Research Fellow 產業。在過去二十多年來，我們已見證了多媒體相關技術對於日常生活中的多
呂俊賢 Chun-Shien Lu 層面影響與改善。多媒體科技的應用極廣，促使了包含視訊、音樂、三維動
Research Fellow 畫、影像、聲音等技術上的進步，並衍生出更多科學研究的持續挑戰。
陳祝嵩 Chu-Song Chen
Research Fellow 多媒體技術實驗室的成員，其主要研究方向包括多媒體訊號處理、電腦視覺和
黃文良 Wen-Liang Hwang 機器學習。每位研究人員除了專注於個人有興趣的研究專題外，也透過共同參
Research Fellow 與大型計劃，以及在重要研究議題上能有關鍵性突破。目前本實驗室正在執行
劉庭祿 Tyng-Luh Liu 的大型合作計畫共有兩項，分別是(1)結合視訊及音訊之多媒體應用；(2)壓縮
Research Fellow 感知(Compressive Sensing)及稀疏表達法 (Sparse Representation)。茲分述
如下：

1. 結合視訊及音訊之多媒體應用：

我們的研究重點，在於開發結合視訊及音訊特徵的多媒體技術和應用。更詳細
地來說，我們探討以下所述之應用。給定一段音樂，本計畫所發展的多媒體系
統，首先將自動分析並萃取此段音樂的主要情感元素，接著將這些情感元素對
應到目標視訊中的關鍵物件。亦即透過改變視訊中主角物件的動作，讓改變後
的視訊呈現出配合給定音樂的情感。要能成功地完成這些工作，我們至少需要
發展出以下三項核心技術。首先，我們必須能從二維的視訊片段中，摘取出主
角物件的幾何和外觀資訊。另一方面，透過分類器的學習，我們需要能系統化
地辨識音樂片段之情感與其強度。最後，根據所擷取出來的情感元素，經由電
腦圖學方法來改變主角物件的三維動作。

預期本研究計畫所面臨的挑戰，主要有三方面。(1)要從二維RGB視訊中，擷取
重要主題物件，並能夠在後續過程中加以任意操控，是頗具挑戰性的。其技術
上最大的困難點，在於二維及三維分析之間的顯著差異。為了有效解決此難題，
我們將轉換原本二維的動作成為三維骨架之運動，以便系統化地操控主角物件
的三維動作。(2) 我們需要建構一個定義完備的分析模型，將音樂片段的情感
加以量化，藉此來計算情緒的強度與節奏。(3)為了讓三維骨架動作看起來更生
動，本系統將無縫地整合三維紋理，來對應其情緒強度和節奏。

2. 壓縮感知及稀疏表達法：

目前我們在此計畫的進展，已達成數個重要的研究成果。在處理信號分離的問
題，我們提出了一個權重分配的演算法，相對於現有的方法，其效果可得到
相當程度的改善。其次，我們針對分析式算子學習的問題，提出了兩階段遞迴
的方法，並能在每階段求得解析度，來達到學習的目的。此外，我們在加速
稀疏快速傅立葉轉換(sFFT)也獲得不錯的成果。我們利用時間軸上的縮減抽樣
(downsampling)提出了新的sFFT演算法，不僅執行速度更快速且容易實作，
並可和原始的sFFT獲得相當的成效。

24 研究群 Research Laboratories

19 20 21 22 23 24 25 26 27 28 29