中央研究院 資訊科學研究所

友善列印

音樂會動畫自動生成系統

音樂會動畫自動生成系統

本系統分為三部分:音訊分析、動作生成、即時同步。音訊分析包含自動採譜、主旋律偵測、樂器種類偵測等等,在過去的做法中,因涉及不同的訊號特徵與音樂資料標註,難以建立整合型的音樂分析解決方案。如今由於神經網路在多任務學習(multitask learning)的發展,同時處理音高、時間和樂器種類的深度學習系統已經成為可能。我們疊合不同類型的訊號特徵進行特徵選取的工作,增加訓練模型的強健性,並達到移調不變性(transposition-invariant)並抑制掉音訊處理問題中典型的泛音錯誤,更精確地說,我們提出的方法將音訊分析簡化為電腦視覺中語意分割(semantic segmentation)的問題。我們基於U-Net的架構,考慮具有注意力或擴張機制的卷積核,同時處理不同尺寸的目標物件,例如辨識短音與長音。

在動作生成研究中,專注於小提琴演奏者的動作生成已經有了初步成果:以小提琴獨奏錄音檔為輸入訊號,即可自動產生虛擬小提琴家的肢體座標,並透過音樂情緒模型決定身體律動。相較於端到端的類神經網路訓練模式,我們的初步成果著重於可解釋、可操控的參數化肢體動作生成模式。本方法由右手的弓法模型、左手的指法模型、以及上半身的音樂情緒模型所組成:右手的模型由基於音訊的換弓點偵測達成,左手的模型則是透過音高偵測對應到把位與弦,左右手的弓指法資訊可決定生成骨架的型態。在音樂情緒的部分,由於頭部與上肢隨著節拍的週期性傾斜角度與音樂的激昂度(arousal)有關,我們根據音訊模型的拍點偵測(beat tracking)與音樂情緒模型的激昂度預測來控制頭部與上肢的傾斜角變化。同樣的原理也適用於其他種類的弦樂器。從音訊生成肢體動作的問題目前還在發展階段,未來有非常多的發展可能。

最後,在即時同步的技術上,我們提出的系統包含音樂追蹤器(music tracker)、音樂偵測器(music detector)和位置估算(position estimation)三個部分。音樂追蹤器包含多執行緒之線上動態時間校正(online dynamic time warping, ODTW)演算法,每個執行緒使用ODTW估測現場演奏音樂當下的演奏速度,各自的結果加以平均得到精確的演奏速度值,與參照的演奏檔案比較,可以得出速度的相對值。音樂偵測器的功能在於偵測音樂什麼時候開始,這個機制可以讓我們不需要手動操作即時同步系統。最後,由於音樂中會有許多重複的片段,所以位置估算的機制可以讓我們同時追蹤目前可能演奏到的位置。結合以上三者,我們可以即時推出現場演奏音樂在原譜或參考音檔中的位置,而表演的設計者可以根據這個資訊作事件的對應。

我們目前已經將上述技術應用在音樂視覺化、自動伴奏/合奏、以及自動肢體動作生成等三種表演類型。我們的系統已經在數個表演現場演奏,包含〈日新樂譯〉音樂會(與沛思文教基金會合作,於國家音樂廳演出)、清大AI樂團開幕(與清大AI樂團合作)、〈夜之絮語〉音樂會(與長笛家林怡君等合作,於衛武營演奏廳演出),以及在2019年底演出的〈聲形〉音樂會(與口口實驗室合作,於濕地Venue演出)等等,除了是對於我們方法上的驗證以外,也成為技術開發者與製作人、表演者的發想與溝通的重要平台,期望這樣的技術落地成為下一代多媒體產業的核心。