Page 24 - 2017 Brochure

P. 24

究群

多媒體技術實驗室

多媒體技術與生物科技及奈米科技，被公認為是二十一世媒體信號的情感計算的發展，我們將低階的聲學和視覺特
紀最具影響力的科技產業。在過去二十多年來，我們已見徵映射到情感空間中，並且在那裡匹配這兩種模態。我們
證了多媒體相關技術對於日常生活中的多層面影響與改善。的研究同時處理視頻編輯和音軌推薦問題。音樂，視頻和
多媒體科技的應用極廣，促使了包含視訊、音樂、三維動諸如情感的語義註釋之間的相關性將被積極地探索和建模。
畫、影像、聲音等技術上的進步，並衍生出更多科學研究我們相信以這種方式組成的音樂影片是吸引人的，因為情
的持續挑戰。感的感知自然發生在視頻觀看和音樂收聽期間。

多媒體技術實驗室成員的主要研究方向，包括多媒體訊號 (2) 深度學習於多媒體資料處理之研發及應用
處理、電腦視覺和機器學習。每位研究人員除了專注於個
人有興趣的研究專題外，也透過共同參與大型計劃，以期深度學習在近幾年是一火紅的研究方向。Alpha Go 打敗韓
在重要研究議題上能有關鍵性突破。目前本實驗室正在執國世界棋王更突顯了這個領域之可行性及未來性。多媒體
行的大型合作計畫共有兩項，分別是 (1) 結合視訊及音訊之資料處理領域有許多老問題及新興議題。深度學習已被證
多媒體應用；(2) 深度學習於多媒體資料處理之研發及應用。明在 Pattern Matching 上面極具效用，既存的多媒體資料處
茲分述如下：理議題有一些原本在辨識上效果並不好，我們打算引入深
度學習來處理一些既存的議題，希望能大大提升原本不易
(1) 結合視訊及音訊之多媒體應用突破的瓶頸。在新研究議題方面，我們打算針對較困難，
與視訊相關的議題進行研發。
我們的研究重點，在於開發結合視訊及音訊特徵的多媒體在未來數年，我們打算從事以下深度學習應用於多媒體資
技術和應用。更詳細地來說，我們探討下述應用：鑑於手料處理的相關議題：
持式裝置越來越流行，很多年輕人可以輕易在演唱會現場
錄製一段現場演唱視訊片段，然後在回家後將之上傳到 1. 視覺資訊處理：基於最近大型資料庫與 GPU 的進
YouTube 或者 Vimeo 與朋友共享。觀賞業餘觀眾以手持裝展，深層卷積網路獲得了廣泛的重視。其可學習豐
置在不同位置所錄得的視訊片段，感覺往往非常吃力且不富的特徵表示，並在影像分類與物品偵測上展現良
愉快。原因是眾多觀眾在錄影時並未事先協調好誰先錄，好效果。然而目前大部分的深度學習方法都是針對
誰取那一段來錄等細節問題。因此，放在 YouTube 上面的分類問題作設計，擅長於標籤判斷的工作，但不一
眾多視訊片段難免重複播放或短少某些片段。為了能讓未定適合於相關例 (relevant instance) 的搜尋與檢索。
到演唱會現場的觀眾有一愉快的「再次欣賞」機會，吾人我們的研究著重於開發新的深度學習方法，以利於
需要一個有系統的「整合」演算法則。通常，吾人稱此整影像或視訊檢索。考量深度學習在檢索方面仍存在
合為「視訊雜湊」（Video mashup）。兩大問題。其一是所訓練特徵之存取效率不彰，其
演唱會視訊雜湊會面臨的挑戰，主要有三方面：（1）通常二是特徵比對的準確性受限。由於檢索所需之空間
要完成一個有水準的視訊雜湊，必須遵守導演的編導語言龐大，常需以二元 (binary) 或雜湊 (hash) 碼的方式
（language of ﬁlm）。通常，導演會透過轉換鏡頭，用距儲存以降低所需空間。而深層網路訓練的特徵大部
離長短、拍攝角度及特寫鏡頭等方式來呈現其藝術、情感分為多維的實數向量，因此如何改造深層網路，使
及技巧。如何自動「解讀」拍攝距離及角度，是一項艱鉅其具備學習高效率的二元特徵碼的能力，是亟需探
的挑戰；（2）眾多由不同角度拍攝之視訊片段如何在「視討的問題。此外，目前的特徵通常以分類損失函數
覺」上找出其先後順序，並有效加以銜接，也是一挑戰；（3） (loss function) 加以訓練而成，所習之特徵空間具
演唱會視訊片段不僅只有視覺的部分，聲音的部分如何判備異類分開的特性，雖適合於分類，但不一定適用
定其先後順序及判斷其音質好壞，也是一項挑戰。例如，於檢索。針對以上問題，我們發展了新的的方法。
如何自動向用戶生成的視頻建議音軌 ( 亦即幫用戶拍攝的影在檢索效率方面，我們在 2015 年提出一個以潛在
片自動配樂 ) 是一個具有挑戰性但值得嚮往的任務，最難的層 (latent layer) 學習二元特徵碼的方法，能夠在不
部分是視頻和音樂之間的距離不能直接測量。隨著最近多影響分類準確率的方式下，強化檢索的速度，這是
目前深層學習二元雜湊碼的代表方法之一，發表於

22 研究群 Research Laboratories

19 20 21 22 23 24 25 26 27 28 29