學術演講

[院區開放]以人工智慧技術尋找音樂的結構

講者蘇黎博士 (中央研究院資訊科學研究所)
邀請人：資訊科學研究所
時間2025-10-19 (Sun.) 10:10 ~ 10:40
地點資訊科學研究所新館106會議室

摘要

近年來發展的神經語言模型 (neural language model) 像是 GPT (Generative Pre-trained Transformer) 已被廣泛用來輔助各種多媒體內容的生成和理解等任務。然而，這些模型在處理音樂資料的限制和挑戰值得注意。在這個演講中，我們討論一個有趣的音樂理解問題：如何讓神經網路模型解析並呈現音樂的結構？我們將在計算音樂學 (computational musicology) 的視角下定義這個問題，討論它所衍生的一些任務，包括音樂訊號中的邊界偵測 (boundary detection)、片段標註 (segment labeling) 和動機探索 (motif discovery) 等等。瞭解到音樂資料的特殊性，我們將說明一般的神經語言模型在這些任務上可及與不可及之處，特別是指出音樂的階層結構之理解，本質上並無法化簡為閉集分類 (closed set classification) 問題，而需被描述成一種依賴前後文資訊的聚類 (context-dependent clustering) 機制，在實作面上需要同時搭配監督式 (supervised) 與自監督式 (self-supervised) 的模型訓練策略。由這些研究結果啟發，我們最後將討論音樂結構的尋找機制在音樂資訊檢索、音樂生成等應用情境下的重要性。

活動訊息

學術演講

摘要