對一般初學者來說,要建立人工智能語音指令最難搞的地方,就是要去找足夠的語音資料來讓 AI 學習。 Google 最近為了讓語音軟件的開發普及化,就將一批基本語音指令的聲音檔案資料公開,讓一般開發人可以輕易進行 AI 語音學習。
這套用來開發語音辨認軟件的 AI 學習用基本指令語音檔案名為「 Speech Commands Dataset 」,是由 Google 負責人工智能架構 TensorFlow 相關團隊,和 5 月時曾推出 Raspberry Pi 語音辨識開發套件 Voice Kit 的 AIY Project 團隊共同推出,資料容量有 1.4GB ,裡面收錄了 30 個如「 Yes 」、「 No 」、「 Left 」、「 Right 」、「 Go 」、「 Stop 」等常用英語語音指令的 1 秒鐘檔案達 65,000 個,這些檔案都是在 AIY Project 所推出的 Open Speech Recording 網站上公開招募下錄下來的。該網頁仍然在運作中,所以如果你也參與的話,說不定你的聲音也會收錄在日後的更新版本中。
除了 Google 的計劃外,其實 Mozilla 也在今年 6 月推出類似的「 Common Voice 」計劃,他們仍在收集語音的階段,目標是希望收集 10,000 小時語音資料,而且也預計會在今年內公開資料檔。
下載 Google 「 Speech Commands Dataset 」:按此
Open Speech Recording 錄音網站:按此
Mozilla 「 Common Voice 」網站:按此