[院區開放]以人工智慧技術尋找音樂的結構
- 講者蘇 黎 博士 (中央研究院資訊科學研究所)
邀請人:資訊科學研究所 - 時間2025-10-19 (Sun.) 10:10 ~ 10:40
- 地點資訊科學研究所新館106會議室
摘要
近年來發展的神經語言模型 (neural language model) 像是 GPT (Generative Pre-trained Transformer) 已被廣泛用來輔助各種多媒體內容的生成和理解等任務。然而,這些模型在處理音樂資料的限制和挑戰值得注意。在這個演講中,我們討論一個有趣的音樂理解問題:如何讓神經網路模型解析並呈現音樂的結構?我們將在計算音樂學 (computational musicology) 的視角下定義這個問題,討論它所衍生的一些任務,包括音樂訊號中的邊界偵測 (boundary detection)、片段標註 (segment labeling) 和動機探索 (motif discovery) 等等。瞭解到音樂資料的特殊性,我們將說明一般的神經語言模型在這些任務上可及與不可及之處,特別是指出音樂的階層結構之理解,本質上並無法化簡為閉集分類 (closed set classification) 問題,而需被描述成一種依賴前後文資訊的聚類 (context-dependent clustering) 機制,在實作面上需要同時搭配監督式 (supervised) 與自監督式 (self-supervised) 的模型訓練策略。由這些研究結果啟發,我們最後將討論音樂結構的尋找機制在音樂資訊檢索、音樂生成等應用情境下的重要性。