【魔方研究】AI作曲這麼強，音樂人會下崗嗎？-3樓貓

近期，一個AI作曲網站Suno突然爆紅，這個網站可以根據用戶提供的歌詞和音樂風格快速生成一些聽起來完成度頗高的作品，無論是純音樂還是人聲演唱都能輕鬆拿捏，甚至連曲子封面都一併給生成了。“人人都是作曲家”的時代似乎就此打開，大家也紛紛在各大視頻網站分享自己用Suno“創作”的音樂，什麼funk版《大悲咒》重金屬版《讓我們蕩起雙槳》，以及某個“鬆弛”梗相關的視頻，都給方妹的心靈以強烈的震撼。

Suno的出現不僅帶來了一波內容創作的熱潮，由此引發的行業討論同樣很多。有人科普它的算法邏輯，還有人分析這個工具未來對音樂行業的影響。而更多人關心的，則是那個經久不衰，讓人焦慮的話題“AI是否會讓真人失業”？

方妹我自己對此非常好奇，又聽說魔方的音頻組最近也在對AI音樂和AI人聲技術做一些前瞻性研究，所以我們再次請到了音頻組的磊哥和Archie來分享一些他們對於這門新技術的理解~

AI作曲發展史

Archie表示，其實學術界對於“計算機作曲”這件事的研究和探索，比大眾想象得要早很多，早在近70年前的1957年，就有學者用非常古早的Illiac計算機制作了一首絃樂四重奏。

學者進行作曲技法實驗

80、90年代，算法生成音樂的研究論文已經有了不少。2016年，索尼的計算機科學實驗室（CSL）就曾發佈過一個讓AI使用披頭士樂隊風格生成的流行歌曲“Daddy's Car”。

生成歌曲“Daddy's Car”的人工智能程序 FlowMachines

近幾年間。類似的工具不斷湧現，各家涉足AI領域的大廠都推出了自家的AI音樂生成的工具。比如Google推出的Music LM，Meta（也就是Facebook）推出的Music Gen，都比Suno問世的更早。其使用方式也同樣是，根據使用者給出的文本和提示詞生成音樂。其中，Music Gen不僅輸出音樂的人聲部分比Suno更好更自然，甚至還允許使用者哼唱一段旋律，再讓AI根據這段哼唱來生成音樂。

其實，無論是Suno、Music LM還是Music Gen都是同一種技術方向的產物。訓練音樂AI和訓練繪圖AI的技術都是基於diffusion（擴散生成）和transformer模型。AI實際上是將海量的歌曲頻譜轉化為某種“圖形”進行學習，再根據使用者給出的關鍵詞進行去噪還原。只不過，一般來說，音樂AI中的人聲和旋律是對應的兩套不同的模型。

考慮到繪圖AI這兩年日新月異的發展，音樂AI的進步速度也並不那麼令人意外。現如今出圈的Suno也已經是第三代了（Suno V3）。所以，對於音樂行業的從業者們來說，AI音樂並不是新鮮事，只不過Suno v3的出現，讓這個領域成功出圈，引起了大眾用戶的注意。

Suno主頁熱門歌曲

SUNO爆火的原因

那麼問題來了，既然如此，為何火爆網絡的會是Suno呢？Archie表示，其實Suno真正出色的地方，是它的“產品設計”。比如，Suno在音樂模型之外，還整合了自然語言模型，來理解使用者的意圖，能理解多種語言（比如中文）的命令，使用門檻比其它只支持英語的音樂AI要友好得多。

而且它的網站界面設計十分優美清晰，可以在主頁試聽別的用戶生成的音樂，甚至有點贊排行榜。在你聽別人用Suno創作的音樂時，還會展示生成這首歌曲的用戶使用的命令和關鍵詞，可以說每一首高讚歌曲都是新用戶最好的“入門指南”。而且Suno的註冊十分便捷，每日都有免費的生成次數，甚至官方還表示使用付費版Suno生成的音樂可以自由商用，進一步促進了相關作品在各個平臺的傳播。

Suno的潮流榜單

如果說其它音樂AI還停留在“學術實驗”的階段，Suno則是直接把它自己做到了“商品化”的地步。再加上23年開始，AI工具開始被大眾所注意，每個行業裡優秀的AI工具都會被拿出來討論一番，Suno因此作為音樂行業的代表，成了備受矚目的焦點。

Suno付費價格頁面

AI音樂在專業領域的侷限性

那麼話說回來，既然Suno的“產品體驗”做得相當不錯，那麼它在專業領域的應用如何呢？實際上——幾乎還不能用。磊哥認為，包括Suno在內，目前所有的作曲AI都有著幾個共性的問題，導致其與主流音樂的生產模式不兼容。

一是，當前AI產出的音樂品質還遠遠達不到商用的標準，這裡的“品質”包括音樂的音質，音樂的長度，以及無法提供分軌等等。之所以有這個問題，則和AI生成音樂的算法邏輯相關，即，AI是把一段噪音逆向變為一段音樂，所以像音樂分軌這種人類音樂製作流程的常規步驟，它反倒給不出來。

二是，AI作曲目前的可控性和效率也不夠理想。目前音樂AI生成的音樂隨機性非常強，即便給予同樣的主題和音樂風格，能否生成出較好的旋律還是很靠運氣的，也許你需要生成100首才有一首比較合適的，而且基於上一個問題，這個合適的作品還無法進行調整和修改。

AI生成的音樂隨機性太強

三是，即便是接入了大語言模型的Suno，對於指令的理解程度也有待提升。首先是對一些音樂風格的理解存在問題。比如讓Suno做古典樂，經常得到的是接近新世紀風格的輕音樂。再比如讓它創作某種樂器的Solo曲，也基本無法做到。當然這個問題可能與模型的訓練量有關，或許解決起來沒有前兩者那麼困難。

四是，版權隱患。雖然Suno聲稱付費用戶無需擔心生成的音樂侵權，並且也做了一些措施來規避可能的版權問題，比如限制了用戶輸入特定藝術家名稱作為指令。但其模型在訓練時是否使用了未授權的音頻，則是十分可疑的，這同樣是一種巨大的隱患。

基於以上幾個情況，目前作曲AI工具無法在遊戲音樂製作的主要流程中使用。當然，有時他們會讓AI生成一些風格化音樂，填充到demo裡作為和其它部門或外部合作方溝通時的示意，但最終還是會被替換。

AI音樂或許可以這樣用

不過換個角度來看，如果不將Suno視為一種生產工具，而是作為一個有趣的“玩具”，那它還是相當稱職的。比如B站上那些搞笑得AI音樂視頻，他們也覺得十分生草。磊哥甚至表示，倘若並不是很嚴肅的運用場景，而是類似於為某個有家園系統的遊戲加入一個AI音樂接口，讓玩家可以根據自己的喜好生成家園的BGM，可能是目前AI音樂與遊戲結合一種更實際得可能性。

不過在音樂AI外，另一類音頻AI工具則已經逐步被遊戲音效工作所接受，那就是“AI語音”。如今的語音AI技術迭代非常快，甚至一些開源的AI語音工具生成的結果已經能夠讓人有“真假難辨”之感。對於一些對語氣要求不那麼嚴苛，但數量又較為龐大的配音需求，比如戰鬥信息播報，AI語音可以減少很多工作量。這項技術，應該很快就會在遊戲行業中得到廣泛運用。甚至或許某一天，大家可以在遊戲開始前，像上傳照片AI捏臉那樣，通過說幾句話，就讓遊戲中的主角擁有和現實中的自己較為相似的聲線，從而提升代入感。

AI捏臉

AI音樂會讓從業者“下崗”嗎

採訪的最後，我們問了磊哥，是否會擔心AI音樂的進一步發展讓自己失業？磊哥表示，他很認同瑞典女歌手Robyn的一句發言：“好的流行音樂，是美妙的旋律和真實的人類情感二者的結合。”AI音樂作品讓人覺得彆扭的點，是缺乏了真實的情感表達。用比較感性的話來說，現在的AI音樂或許聽起來不刺耳，卻沒有讓人落淚的力量。

瑞典女歌手Robyn

所以磊哥表示，在AI音樂能產生讓人落淚的作品之前，他都不會擔心“AI音樂替代人類音樂”這件事。也許它未來可以是一種提升效率的工具，讓音樂行業的生產流程發生改變。以後大家追的明星也許不再是“歌手”，而是類似於DJ，調試AI工具從而產出獨特作品的“明星工程師”。但這樣的模式最終還是離不開一個又一個有真實情感體驗的人類。

而如果有一天，AI解析並學會了人類情感在音樂中的表達，我們可能就需要更加認真地討論AI和人類的關係了。

採訪最後的討論給我留下了許多遐想，隨著AI技術的不斷發展，我們還將面臨一次又一次的變化和轉型。但就像遊戲可以從掌機走向電腦再走向手機，不同行業最終都能找到和新技術一同發展的路徑，相信音樂行業面對AI作曲時也一樣。我們不如保持期待，一起看看它的後續發展吧！

好啦，這期魔方研究就聊到這裡吧，也拜託大家多多點贊收藏支持一下方妹的工作哦~讓我們下期節目再見吧。