Microsoft 發表 VALL-E AI 模型　三秒錄音即可模仿你把聲！

Microsoft 的研究人員日前發表一份研究論文，宣布他們研究出一個人工智能系統 VALL-E，只要有 3 秒鐘錄音，即能以那個人的聲線來朗讀文章，還可以改用各種語調來說話。研究人員將樣本聲音檔案放到 GitHub 上，大家可以去聽聽這些 AI 合成語音有多像真。

這個「神經編解碼語言模型」稱為 VALL-E，它利用去年 10 月 Meta 發表的事先訓練好的 Encodec 神經音頻編解碼模型作為標記器，抽取人類的語音分割成特徵碼，VALL-E 就根據音素（要合成的文字內容）和聲學提示（3 秒鐘錄音），生成離散的音頻編碼代碼，轉化成具講者個人聲線的合成語音內容。AI 更能使用憤怒、疲倦、興奮或厭惡等不同語調來讀出內容，甚至可以同時合成講者周圍環境的雜音，例如隔著電話話筒的聲音。

大家可以在論文的 GitHub 專案網頁試聽語音樣本，Speaker Prompt 一欄是收集得來的 3 秒鐘講者聲學提示，Ground Truth 一欄是講者親自讀出的段落，而 VALL-E 就是人工智能合成的同一段落。

GitHub「VALL-E」專案網頁：按此

研究人員表示，利用 VALL-E，可以製作出各種各樣語音合成應用，例如零樣本（Zero-Shot）文字轉語音、語音編輯及結合其他生成 AI 模型的內容創作。不過同時研究人員在論文中也提到這 VALL-E 有可能被用在電話詐騙上。而為了減低這潛在風險，他們建議建立另一個 AI 模型來識別由 VALL-E 合成出來的語音。

Microsoft 發表 VALL-E AI 模型 三秒錄音即可模仿你把聲！

您會感興趣的內容

相關文章

Microsoft 發表 VALL-E AI 模型　三秒錄音即可模仿你把聲！