Page 12 - My FlipBook
P. 12
tlight Projects亮



畫 音樂會動畫自動生成系統

計畫主持人:蘇黎博士
計畫期程:2019/1~2021/12

多 媒 體 產 業 的 人 工 智 慧 化 是 一 項 細 膩 的 工 程, 其 往 往 segmentation)的問題。我們基於 U-Net 的架構,考慮具
關 係 到 影 像、 聲 音、 乃 至 於 情 感 層 面 等 多 模 態(cross- 有注意力或擴張機制的卷積核,同時處理不同尺寸的目
modal)資料的整合。例如,在多媒體動畫的製作過程中, 標物件,例如辨識短音與長音。
如何讓影像與音樂完美結合,是需要大量製作者耗費心
力安排的工作。本計畫的目的即是希望能突破此藩籬, 在動作生成研究中,專注於小提琴演奏者的動作生成已
可以讓機器自動理解音樂內容,並對應到虛擬角色的肢 經有了初步成果:以小提琴獨奏錄音檔為輸入訊號,即
體動作,甚至可以與真人一同表演。此技術未來預期可 可自動產生虛擬小提琴家的肢體座標,並透過音樂情緒
讓動畫製作者省下大量的製作時間,讓人機互動的多媒 模型決定身體律動。相較於端到端的類神經網路訓練模
體展演增加無限可能。 式,我們的初步成果著重於可解釋、可操控的參數化肢
體動作生成模式。本方法由右手的弓法模型、左手的指
本計畫聚焦於打造可以跟真人音樂家一起進行現場演出 法模型、以及上半身的音樂情緒模型所組成:右手的模
型由基於音訊的換弓點偵測達成,左手的模型則是透過
的虛擬音樂家。本系統分為三部分:音訊分析、動作生 音高偵測對應到把位與弦,左右手的弓指法資訊可決定
成、即時同步。音訊分析包含自動採譜、主旋律偵測、 生成骨架的型態。在音樂情緒的部分,由於頭部與上肢
樂器種類偵測等等,在過去的做法中,因涉及不同的訊 隨著節拍的週期性傾斜角度與音樂的激昂度(arousal)
號 特 徵 與 音 樂 資 料 標 註, 難 以 建 立 整 合 型 的 音 樂 分 析 有關,我們根據音訊模型的拍點偵測(beat tracking)與
解決方案。如今由於神經網路在多任務學習(multitask 音樂情緒模型的激昂度預測來控制頭部與上肢的傾斜角
learning)的發展,同時處理音高、時間和樂器種類的深 變化。同樣的原理也適用於其他種類的弦樂器。從音訊
度學習系統已經成為可能。我們疊合不同類型的訊號特 生成肢體動作的問題目前還在發展階段,未來有非常多
徵進行特徵選取的工作,增加訓練模型的強健性,並達 的發展可能。
到 移 調 不 變 性(transposition-invariant) 並 抑 制 掉 音 訊
處理問題中典型的泛音錯誤,更精確的說,我們提出的
方法將音訊分析簡化為電腦視覺中語意分割(semantic

圖一:可與真人音樂家一起進行現場演出的虛擬音樂家概念圖。

10
   7   8   9   10   11   12   13   14   15   16   17