2023-05-22
近日,AI“孫燕姿”爆火,其翻唱的《發(fā)如雪》《下雨天》短短幾天就突破百萬(wàn)播放量,一度登上各大平臺(tái)熱搜榜首位,成為“新晉頂流”。在B站在搜索框輸入“AI”后,第一個(gè)詞條就是“AI孫燕姿”。除了孫燕姿外,還有周杰倫、王心凌、許嵩、Lady Gaga等歌手也被網(wǎng)友制作出了「AI替身」。有人說(shuō),這是2023年最火的聲音,有人說(shuō),這是對(duì)真人歌手赤裸裸的侵權(quán),還有人說(shuō),這是AI技術(shù)的新高度,AI將成為音樂(lè)創(chuàng)作的新工具。
元境科技人工智能專家解讀“AI孫燕姿”背后原理
“AI孫燕姿”憑什么能夠如此爆火,讓網(wǎng)友們喜愛(ài)不已,又是怎么做到如此擬真,實(shí)現(xiàn)接近原唱效果的呢?為了搞明白背后的技術(shù)原理,小編特意請(qǐng)教了元境科技人工智能方面的專家。了解到“AI孫燕姿”正是利用了當(dāng)下最熱門的人工智能技術(shù),通過(guò)建立神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過(guò)大量音樂(lè)數(shù)據(jù)集訓(xùn)練,使得AI虛擬歌手的聲音與真人歌手無(wú)異。
“AI孫燕姿”使用的核心技術(shù)來(lái)源于Sovits4.0歌聲轉(zhuǎn)換模型,基于so-vits-svc的開(kāi)源項(xiàng)目制作。歌聲轉(zhuǎn)換模型通過(guò)SoftVC內(nèi)容編碼器提取歌曲的音調(diào)、音高等特征,然后將每段音頻做成幾秒到十幾秒不等的切片,然后將翻唱者的聲音數(shù)據(jù)丟給算法拾取出來(lái),再和歌曲的切片對(duì)應(yīng)。最后,再對(duì)生成的歌曲進(jìn)行后期優(yōu)化,比如加入混響或簡(jiǎn)單修音,一首AI翻唱歌曲就制作完成了。
Sovits4.0模型介紹
Sovits4.0模型是一種歌聲轉(zhuǎn)換模型,它可以將一個(gè)人的聲音轉(zhuǎn)換成另一個(gè)人的聲音,具有極高的準(zhǔn)確性和逼真度。這意味著“AI孫燕姿”可以通過(guò)該模型學(xué)習(xí)并模仿孫燕姿的音色和唱腔特點(diǎn),從而創(chuàng)造出逼真的孫燕姿風(fēng)格歌曲。
模型的核心技術(shù)是SoftVC內(nèi)容編碼器,它基于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù),使用了一種稱為變分自動(dòng)編碼器(Variational Autoencoder,VAE)的架構(gòu),結(jié)合了條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Network,CGAN)的思想。SoftVC內(nèi)容編碼器的目標(biāo)是學(xué)習(xí)并提取人聲中的內(nèi)容信息,即與語(yǔ)義相關(guān)的特征,而忽略與說(shuō)話人個(gè)體有關(guān)的特征,這樣的分離可以確保在進(jìn)行歌聲轉(zhuǎn)換時(shí),保留源音頻的音樂(lè)內(nèi)容,并將其轉(zhuǎn)換為目標(biāo)歌手的聲音特征。在這個(gè)過(guò)程中需要大量的訓(xùn)練數(shù)據(jù)和不斷反復(fù)迭代的訓(xùn)練,以使生成的效果盡可能接近目標(biāo)歌手。
外國(guó)模型遇到中文歌,多少有些“水土不服”
不過(guò)雖說(shuō)Sovits4.0模型生成的音樂(lè)在專業(yè)人員的調(diào)音后,有著不錯(cuò)的效果,但是模型本身未對(duì)中文歌曲做針對(duì)性優(yōu)化,在國(guó)內(nèi)使用多少有些“水土不服”。生成中文歌曲時(shí)不時(shí)會(huì)出現(xiàn)小瑕疵,需要大量的手工精調(diào)才能出曲,對(duì)于普通用戶來(lái)說(shuō)門檻過(guò)高。如果想要實(shí)現(xiàn)比較好的效果,甚至還需要對(duì)模型進(jìn)行Fine tuning。同時(shí)也對(duì)訓(xùn)練的數(shù)據(jù)集要求非常嚴(yán)苛(需要歌手咬字清晰),一些唱法比較“飄逸”的歌手(不是在說(shuō)咱周董哈~)學(xué)習(xí)效果就不是很理想了。
之所以“AI孫燕姿”成為最火的AI歌手,成功出圈,也正是因?yàn)閷O燕姿的歌曲吐詞清晰,適合作為訓(xùn)練數(shù)據(jù)集,所以模仿的效果最好。目前Sovits4.0對(duì)訓(xùn)練數(shù)據(jù)集要求過(guò)嚴(yán)、使用門檻過(guò)高、中文歌曲生成效果不佳是該模型存在的顯著問(wèn)題。
「MetaSurfing-元享智能云平臺(tái)」華語(yǔ)AI音樂(lè)最佳選擇
要說(shuō)最了解咱們?nèi)A語(yǔ)音樂(lè)的,那自然還得是咱們中國(guó)人自己。正好最近天娛數(shù)科子公司元境科技的「MetaSurfing-元享智能云平臺(tái)」免費(fèi)開(kāi)放,其內(nèi)置的AI音頻模塊集成了元境科技自研的聲學(xué)模型,該模型學(xué)習(xí)了大量中文曲目,針對(duì)華語(yǔ)音樂(lè)做了海量?jī)?yōu)化,把使用門檻降低到了“有手有嘴就行”(為此算法工程師小哥哥的頭發(fā)都快掉光了)。表現(xiàn)效果達(dá)到了世界第一梯隊(duì)水平。用了元享智能云平臺(tái),AI版的你說(shuō)不定就是下一個(gè)華語(yǔ)樂(lè)壇“新晉頂流”。
不過(guò)元享智能云平臺(tái)真的能達(dá)到無(wú)門檻的上手難度嗎?實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),小編決定親自體驗(yàn)一番。沒(méi)想到從下載到生成歌曲,我這樣沒(méi)有任何音樂(lè)細(xì)胞和計(jì)算機(jī)基礎(chǔ)的新手小白竟然也能輕松玩轉(zhuǎn)。下面小編來(lái)教大家如何使用元享平臺(tái)創(chuàng)作AI歌曲。
小白教程
第一步 打開(kāi)元享,錄制一段二十分鐘左右的文稿,這是為了給模型生成一段可以學(xué)習(xí)音色、音調(diào)等特征的素材。讓元享生成我們自己的聲音模型。
第二步 把這段錄音上傳到“元享智能云平臺(tái)”,然后喝上一杯咖啡,等待約半個(gè)小時(shí)左右的訓(xùn)練時(shí)間(云端訓(xùn)練,不占用本地資源哦~硬件層面也實(shí)現(xiàn)了無(wú)門檻),我們自己的個(gè)性化音色特征碼就生成好了~
第三步 生成自己的AI音樂(lè),分享到B站、抖音、朋友圈,讓自己AI作品刷屏社交網(wǎng)絡(luò)。
「MetaSurfing-元享智能云平臺(tái)」,簡(jiǎn)易的操作步驟,先進(jìn)的計(jì)算模型,省去了AI翻唱歌曲所需的大量繁瑣工作,無(wú)需數(shù)據(jù)的預(yù)處理、格式轉(zhuǎn)換、文本轉(zhuǎn)換、去噪、音量平衡等諸多操作,只需要將數(shù)據(jù)丟給元享智能云平臺(tái),稍等片刻就好了~
動(dòng)起手來(lái),創(chuàng)作屬于你的音樂(lè)吧!
對(duì)于咱們普通人來(lái)說(shuō),如果對(duì)音樂(lè)創(chuàng)作有興趣,在元享這樣的低門檻數(shù)字內(nèi)容創(chuàng)作平臺(tái)的加持下,動(dòng)手原創(chuàng)出一首屬于自己的歌曲已經(jīng)非常容易。所以不妨現(xiàn)在就動(dòng)起手來(lái)!也許不到2小時(shí)你就能訓(xùn)練出一個(gè)AI明星~