Page 12 - My FlipBook

P. 12

tlight Projects亮
點
計

畫音樂會動畫自動生成系統

計畫主持人：蘇黎博士
計畫期程：2019/1~2021/12

多媒體產業的人工智慧化是一項細膩的工程，其往往 segmentation）的問題。我們基於 U-Net 的架構，考慮具
關係到影像、聲音、乃至於情感層面等多模態（cross- 有注意力或擴張機制的卷積核，同時處理不同尺寸的目
modal）資料的整合。例如，在多媒體動畫的製作過程中，標物件，例如辨識短音與長音。
如何讓影像與音樂完美結合，是需要大量製作者耗費心
力安排的工作。本計畫的目的即是希望能突破此藩籬，在動作生成研究中，專注於小提琴演奏者的動作生成已
可以讓機器自動理解音樂內容，並對應到虛擬角色的肢經有了初步成果：以小提琴獨奏錄音檔為輸入訊號，即
體動作，甚至可以與真人一同表演。此技術未來預期可可自動產生虛擬小提琴家的肢體座標，並透過音樂情緒
讓動畫製作者省下大量的製作時間，讓人機互動的多媒模型決定身體律動。相較於端到端的類神經網路訓練模
體展演增加無限可能。式，我們的初步成果著重於可解釋、可操控的參數化肢
體動作生成模式。本方法由右手的弓法模型、左手的指
本計畫聚焦於打造可以跟真人音樂家一起進行現場演出法模型、以及上半身的音樂情緒模型所組成：右手的模
型由基於音訊的換弓點偵測達成，左手的模型則是透過
的虛擬音樂家。本系統分為三部分：音訊分析、動作生音高偵測對應到把位與弦，左右手的弓指法資訊可決定
成、即時同步。音訊分析包含自動採譜、主旋律偵測、生成骨架的型態。在音樂情緒的部分，由於頭部與上肢
樂器種類偵測等等，在過去的做法中，因涉及不同的訊隨著節拍的週期性傾斜角度與音樂的激昂度（arousal）
號特徵與音樂資料標註，難以建立整合型的音樂分析有關，我們根據音訊模型的拍點偵測（beat tracking）與
解決方案。如今由於神經網路在多任務學習（multitask 音樂情緒模型的激昂度預測來控制頭部與上肢的傾斜角
learning）的發展，同時處理音高、時間和樂器種類的深變化。同樣的原理也適用於其他種類的弦樂器。從音訊
度學習系統已經成為可能。我們疊合不同類型的訊號特生成肢體動作的問題目前還在發展階段，未來有非常多
徵進行特徵選取的工作，增加訓練模型的強健性，並達的發展可能。
到移調不變性（transposition-invariant）並抑制掉音訊
處理問題中典型的泛音錯誤，更精確的說，我們提出的
方法將音訊分析簡化為電腦視覺中語意分割（semantic

圖一：可與真人音樂家一起進行現場演出的虛擬音樂家概念圖。

10

7 8 9 10 11 12 13 14 15 16 17