Page 24 - profile2014.indd
P. 24
多媒體科技形塑我們的未來
多媒體技術實驗室
Lab
研究人員
廖弘源 Hong-Yuan Mark Liao 多媒體技術與生物科技及奈米科技,被公認為是二十一世紀最具影響力的科技
Distinguished Research Fellow 產業。在過去二十多年來,我們已見證了多媒體相關技術對於日常生活中的多
呂俊賢 Chun-Shien Lu 層面影響與改善。多媒體科技的應用極廣,促使了包含視訊、音樂、三維動
Research Fellow 畫、影像、聲音等技術上的進步,並衍生出更多科學研究的持續挑戰。
陳祝嵩 Chu-Song Chen
Research Fellow 多媒體技術實驗室的成員,其主要研究方向包括多媒體訊號處理、電腦視覺和
黃文良 Wen-Liang Hwang 機器學習。每位研究人員除了專注於個人有興趣的研究專題外,也透過共同參
Research Fellow 與大型計劃,以及在重要研究議題上能有關鍵性突破。目前本實驗室正在執行
劉庭祿 Tyng-Luh Liu 的大型合作計畫共有兩項,分別是(1)結合視訊及音訊之多媒體應用;(2)壓縮
Research Fellow 感知(Compressive Sensing)及稀疏表達法 (Sparse Representation)。茲分述
如下:
1. 結合視訊及音訊之多媒體應用:
我們的研究重點,在於開發結合視訊及音訊特徵的多媒體技術和應用。更詳細
地來說,我們探討以下所述之應用。給定一段音樂,本計畫所發展的多媒體系
統,首先將自動分析並萃取此段音樂的主要情感元素,接著將這些情感元素對
應到目標視訊中的關鍵物件。亦即透過改變視訊中主角物件的動作,讓改變後
的視訊呈現出配合給定音樂的情感。要能成功地完成這些工作,我們至少需要
發展出以下三項核心技術。首先,我們必須能從二維的視訊片段中,摘取出主
角物件的幾何和外觀資訊。另一方面,透過分類器的學習,我們需要能系統化
地辨識音樂片段之情感與其強度。最後,根據所擷取出來的情感元素,經由電
腦圖學方法來改變主角物件的三維動作。
預期本研究計畫所面臨的挑戰,主要有三方面。(1)要從二維RGB視訊中,擷取
重要主題物件,並能夠在後續過程中加以任意操控,是頗具挑戰性的。其技術
上最大的困難點,在於二維及三維分析之間的顯著差異。為了有效解決此難題,
我們將轉換原本二維的動作成為三維骨架之運動,以便系統化地操控主角物件
的三維動作。(2) 我們需要建構一個定義完備的分析模型,將音樂片段的情感
加以量化,藉此來計算情緒的強度與節奏。(3)為了讓三維骨架動作看起來更生
動,本系統將無縫地整合三維紋理,來對應其情緒強度和節奏。
2. 壓縮感知及稀疏表達法:
目前我們在此計畫的進展,已達成數個重要的研究成果。在處理信號分離的問
題,我們提出了一個權重分配的演算法,相對於現有的方法,其效果可得到
相當程度的改善。其次,我們針對分析式算子學習的問題,提出了兩階段遞迴
的方法,並能在每階段求得解析度,來達到學習的目的。此外,我們在加速
稀疏快速傅立葉轉換(sFFT)也獲得不錯的成果。我們利用時間軸上的縮減抽樣
(downsampling)提出了新的sFFT演算法,不僅執行速度更快速且容易實作,
並可和原始的sFFT獲得相當的成效。
24 研究群 Research Laboratories