愈來愈多香港人拍片上載 YouTube ,例如近期 BNO 回歸英國熱潮。但剪接影片已夠費神,給影片配上中文字幕更花時間。本地創業公司 Datax 開發網上服務「字幕𠹌 Subanana 」,用自然語言處理( NLP )的人工智能技術,快速給影片配上地道的廣東話字幕。
「字幕𠹌」採用雲端人工智能服務將語音變成文字,加入時間標籤,自動產生 .srt 字幕檔案,可匯入影片處理軟件,加快後製過程。現時支援 YouTube 、 Google Drive 和用戶上傳影片。
Datax 創辦人兼行政總裁黃偉俊指出,影片加上字幕看起來更能吸引觀眾,例如影片分享平台上,欠奉字幕的影片觀看量可以比有字幕的少近一半。一來,有些觀眾收看時不開啟聲音,其次有字幕的影片被視為高質素製作的象徵。
但對創作人而言是一大挑戰,有些甚至將製作字幕工序外判。愈來愈多香港人加入創作影片, Vlogger 、製作公司已不計其數,近期連教師也要製作教學影片,可見字幕的需求急增。「用人工智能可以解決,於是開發『字幕𠹌』服務,期望幫助他們配上字幕,並助我們熟悉的廣東話入文更普及。」
『字幕𠹌』的核心技術整合多個公共雲的 NLP 服務,通過 API 連接。他解釋,這些服務識別廣東話的能力各有特點,但普遍未夠成熟,需要混合使用各取長處,方可為影片的語音變成文字。「字幕𠹌」的技術將廣東話聲音交給合適的人工智能服務處理。現時的識別準確度超過七成,最後需要人手協助修正,不過已經給創作人莫大幫助,節省大量時間做配字幕的枯燥工作。
該服務設有基本版試用,例如 YouTube 連結的影片只限 15 分鐘,上傳影片設限 500MB 。黃偉俊表示,讓創作人試用過服務,若需要完整功能,可考慮付費購買高級版,每影片分鐘收 13.5 港元,有專業團隊先用「字幕𠹌」識別,並修改人工智能的偏差,提供字幕檔案,甚至直接輸出嵌有字幕的影片。
然而,黃偉俊稱,「字幕𠹌」僅是非常早期發展,從概念開發至初步可用只有兩個多月,目前技術有一定挑戰。用本刊的 YouTube 頻道影片試用「字幕𠹌」,所產生的字幕準確度未算高。他解釋,正是目前所面對的幾個技術挑戰有待解決。
他指出,我們日常的廣東話對話都中英夾雜,大部分機械學習模型均未能準確識別。
其次是說話的句子識別分段。本刊的片段由兩位主持對談,不時出現「疊聲」情況。大部分 YouTube 影片較少有這情況,但 YouTuber 大多會將說話之間的停頓空間剪去,將音訊直接交給人工智能識別,結果得出一大段文字,無法加入時間標籤。「字幕𠹌」其中一個改善功能,建立模型準確地識別段句,好讓雲端服務按時間讀取音訊,分隔成句子。
影片的收音亦是已知的技術問題,他表示,例如收音不夠清晰或背景雜音太大聲,都會影響人工智能識別的結果。
Datax 從事數據平台,以群眾力量收集和分類數據,提供不同類型具標籤的數據。黃偉俊稱,「字幕𠹌」可謂 Datax 的副業,從字幕識別訓練廣東話語言模型,提供數據集給業界。「長遠而言要建立開源的語言模型,讓人工智能可聽、講廣東話。」