機器之心原創(chuàng)
機器之心編輯部
AI正悄悄「攻占」你的歌單。
前幾天在網易云音樂上瞎逛,被意外種草一首歌,真一開口就是月色迷蒙的味道。
目前,該歌曲拿下了15萬小紅心。本想看看是哪位大神的作品,沒想到底下一水的評論:這是AI生成的!
其實細聽之下還是能找出「端倪」的,比如音質糊的像畫面馬賽克、人聲跟牙齒漏風似的。但經過持續(xù)的進化,AI音樂越來越真假難辨。
現在,AI音樂的這把火,越燒越旺。
7月23日,大模型廠商昆侖萬維正式發(fā)布了新一代音樂大模型MurekaV7,成為了當前國產最強,并在多個關鍵指標上顯著超越海外AI音樂平臺Suno(V4.5),包括平均表現評分、混音質量與質感、人聲真實感與表現力、整體音質評價。
不僅如此,與上一版本V6相比,MurekaV7生成的音樂品質更高,不僅大幅提升旋律動機和編曲質量,還進一步增強了人聲與樂器真實度。
這么說吧,即使你是個五音不全的音樂小白,也能拿它做出超細膩的個人獨家BGM。而對于專業(yè)的音樂人而言,MurekaV7生成的音樂又極具創(chuàng)新性,在一定程度上可以啟發(fā)靈感。
MurekaV7作品《杜甫》
目前,MurekaV7已經全面上線,感興趣的小伙伴可以前往官網進行體驗。
官網地址:https://www.mureka.cn/
接下來,我們就來實測一下,看看MurekaV7在搞音樂創(chuàng)作時是否還有那種「牙齒漏風」的感覺。
一手實測
能模仿王菲,還能生成「土味」MV
MurekaV7真不只是「AI幫你寫首歌」那么簡單,現在它還上線了新功能——自定義歌手
我們可以上傳音頻,或者直接丟一個視頻鏈接進去,AI就能自動模仿音色,唱出全新創(chuàng)作的歌曲。
以天后王菲為例。眾所周知,王菲是鄧麗君的鐵桿粉絲,在2013年「鄧麗君60追夢紀念演唱會」上,鮮少出席活動的王菲與偶像隔空對唱了這首《清平調》。
王菲演唱會原唱
這一次,我們讓Mureka模擬王菲的音色,并在此基礎上重新譜曲、演唱。
Mureka生成的聲線再現了王菲特有的空靈、通透,處理歌曲中的弱唱又模擬出王菲標志性的氣聲效果。咬字方面,Mureka同樣還原了王菲不咬死字頭,讓聲音在口腔中自然流淌的唱法,尤其在尾音收放上,更是有股菲式慵懶感。
我們再來試試它的「音樂參考」功能。
所謂音樂參考,就是通過分析用戶上傳的音樂,Mureka能夠精準識別原曲的類型、節(jié)奏、配器和情緒,并據此生成具有相似風格的原創(chuàng)作品。
前段時間,中國網紅「豪哥哥」改編印度神曲《TunakTunakTun》(也就是那首著名的《我在東北玩泥巴》),創(chuàng)作出這首魔性十足的《剛買的飛機被打啦》。
視頻來自博主「豪哥哥-魔性改歌」
這首歌一經發(fā)布就在全球社交媒體瘋狂刷屏,甚至一度把印度網友搞破防,聯名「上書」聯合國。
我們也拿Mureka做了一版,曲風相當洗腦,要是口音咖喱味再濃點就好了。更有意思的是,Mureka還能自動生成MV,抽象畫面配上黃色描邊歌詞,又土又上頭。
此外,Mureka還升級了歌曲描述、純音樂生成等常規(guī)功能。
比如,我們輸入李白的《將進酒》,再選擇音樂風格「說唱金屬,另類金屬,說唱搖滾,男聲」,Mureka立馬化身搖滾老炮,激情開唱。
或者通過文字Prompt直接生成免版權的BGM:
提示詞:回憶童年的溫暖鋼琴旋律
也可以上傳參考音頻,讓模型創(chuàng)作出風格相近的純音樂片段。
如果對生成的音樂不滿意,MurekaV7還提供音頻編輯功能,可以局部編輯、延長歌曲、樂器分軌甚至裁剪音頻,并支持10種語言的AI音樂創(chuàng)作。
自研音樂思維鏈「MusiCoT」再次進化
不到四個月的時間,MurekaV7相較于上代MurekaV6的表現又提升了一大截,這源自昆侖萬維對自研音樂生成專用思維鏈——MusiCoT的持續(xù)優(yōu)化。
我們知道,大語言模型的內容輸出方式是「預測下一個token」,這顯然與音樂創(chuàng)作的過程不同。為此,昆侖萬維在Mureka中引入了生成式AI領域流行的思維鏈(CoT)提示方法,并通過V6版本完成了首秀。
此次,MurekaV7進一步優(yōu)化了MusiCoT(AnalyzableChain-of-Musical-ThoughtPrompting)技術,顯著提升了模型生成結果的整體性與發(fā)聲表現,具體包括以下三大方面的創(chuàng)新。
一是,先想結構后生成,符合人類創(chuàng)作邏輯
MusiCoT在輸出音頻token之前,會先讓模型生成對音樂結構的全局規(guī)劃,確定整體的段落、情緒、編排等布局。這就能讓AI生成的作品具備清晰的結構。
二是,生成結構可解釋、可控
通過CLAP(對比式語言-音頻預訓練模型),MusiCoT的明確思維鏈讓AI生成的音樂具有明確的可讀性和可控性。用戶可以輸入任意長度的參考音頻作為風格提示。
三是,主觀+客觀驗證效果全面領先
基于大量實驗,MusiCoT在主客觀雙重指標下均展現出了卓越的效果。無論是結構完整、旋律連貫還是整體音樂性均優(yōu)于傳統(tǒng)方法,在多項評測中表現達到行業(yè)頂流水準。
在MurekaV7上,MusiCoT不僅在結構層面實現對音樂創(chuàng)作思維的擬合與對齊,更借助數據的進一步擴展、嵌入信息粒度的細化,完善了可控性與可擴展性。
得益于MusiCoT的升級和應用,Mureka部分生成作品已經能夠為音樂人提供更多創(chuàng)作靈感,并加速從靈感到成品的落地過程。
定制語音有了更好的國產選擇
此次,除了更強、更擬人、更自然的音樂生成之外,昆侖萬維還帶來了一款音頻模型——MurekaTTSV1。該模型支持的語音創(chuàng)作功能也已經上線官網。
與音樂生成強調旋律、和聲、節(jié)奏、風格等音樂語言的表達不同,音頻模型更關注對所有聲音類型的通用表示與理解,包括語音、人聲、環(huán)境音、音效等。MurekaTTSV1的最大亮點是引入了VoiceDesign能力,可以通過文本輸入想要的語音特征來獲得對應的音色。
這意味著,不論是真實人物、虛擬人物還是配音角色都能夠通過文本來控制,不用像過去一樣只能通過預設音色庫來實現音色克隆。相反,用戶能夠通過自然語言指令靈活定義聲音的性別、年齡、情感狀態(tài)、語氣風格、表達節(jié)奏,達成真正個性化、場景化的語音合成體驗。
跑分結果顯示,在與競對ElevenLabsTTSV2的較量中,MurekaTTSV1的語音質量、分詞與語句節(jié)奏準確性以及整體聽感體驗均實現了超越,只在發(fā)音準確性方面略遜一籌。如此一來,昆侖萬維在語音合成的多個核心維度上已具備行業(yè)領先優(yōu)勢,可以進一步滿足更高階的語音創(chuàng)作與交互場景的需求。
最終好不好,還是得看實際效果。
我們來聽一段人聲,「童音女聲,12歲左右,聲音清脆悅耳,熱情洋溢,語速略快但不慌亂?!?/p>
再來一個「男性新聞播音員,語音清晰且穩(wěn)定,語調平穩(wěn)、沉著,語速適中,語氣冷靜理性,情感中性且客觀,音量適中,聲音具有一定的厚重感,體現專業(yè)性與可信度」。
可以看到,MurekaTTSV1從創(chuàng)意描述到聲音輸出實現了全流程生成,聲音創(chuàng)造更加高效與自由,不僅大大拓展了語音生成的應用邊界,也為內容創(chuàng)作與交互體驗打開了想象空間。未來,該模型可以進一步在影視、游戲、廣告等行業(yè)的配音場景大顯身手。
最近一段時間,隨著Scalinglaws放緩,模型規(guī)模擴展所帶來的邊際收益減弱,各家廠商卷基礎大模型的步伐也開始放緩。相反,大模型的「價值兌現」與「商業(yè)化落地」正在加速推進中。
隨之而來,一些垂直大模型成為新一輪技術博弈與產品競速的焦點,如AIGC領域的視頻大模型、音樂大模型等。大家都卯足了勁搶占規(guī)?;涞氐募t利,率先打通從技術到產品的轉化路徑,占據內容創(chuàng)作、營銷、娛樂等高頻應用場景的生態(tài)入口。
這一趨勢與昆侖萬維長久以來的戰(zhàn)略天然契合。在「實現通用人工智能,讓每個人能夠更好地表達自我」的使命驅使下,該公司形成了「AI前沿基礎研究——基座模型——AI矩陣產品/應用」的全產業(yè)鏈,持續(xù)發(fā)力AIGC創(chuàng)作領域,并推出覆蓋視頻、音樂、Agent等多個方向的創(chuàng)新型產品。
其中自2024年4月亮相以來,Mureka作為「會思考」音樂模型的名頭越打越響。今年,Mureka已經迎來了兩次大版本更新,上個版本V6直到最近仍被很多國外網友「安利」。
甚至從3月底到現在,Mureka的新增用戶就接近300萬。顯然,昆侖萬維的音樂大模型獲得了用戶的高度認可,并正在引領音樂創(chuàng)作方式的變革。
未來,隨著模型能力的持續(xù)增強與創(chuàng)作門檻的進一步降低,AI有望演變成為音樂創(chuàng)作的核心驅動力。同時,音樂創(chuàng)作也將繼續(xù)打破專業(yè)壁壘,走向全民表達。
文中視頻音頻鏈接:https://mp.weixin.qq.com/s/D-Qq9QvAQZzfTEAT_NrxlA