OpenAI 在當地時間 2 月 15 日發表文字生成影片的 AI 模型「Sora」,只要提供對場景的描述,就可以生成最長 1 分鐘 1080p 高畫質影片,質素和穩定性都相當高。不過 OpenAI 未有向一般使用者公開 Sora,而只向少數影像藝術家和製片人開放以收集意見作出改善,並將會加入 C2PA(內容出處與真實性聯盟)元數據 以便人們辨識影片是由 AI 生成的。
OpenAI 表示他們正在訓練 AI 理解和模擬具動態的物理世界,目的是希望為人們解決需要與真實世界互動的問題。而 Sora 就是這研究的成果之一。它的物點是片長較長、高解像度和能遵從用戶要求的高穩定性。Sora 可以生成包含複雜角色的複雜場景,與及指定動作類型的影片。Sora 不單理解用戶在提示句中要求甚麼,還理解物件在現實世界中是如何存在的。Sora 並可以生成一條有不同鏡位的影片,而維持片中角色和風格穩定。
過往雖然 Meta、Google 和 Stability AI 都有發表過文生影片的模型,不過不是解像度低、片長短,就是影片穩定性欠佳,景物、主體和角色面容會不停改變。
OpenAI 在發表網頁貼出 40 多條解像度最高達 1080p 的影片和生成它的提示句,全部都是直接由 Sora 生成並且未經剪輯。可以見到影片相當細緻,人物角色容貌相當穩定不會改變,而且幾乎看不出是虛構。多條影片都有皮毛鬍子、雪地、城市實景等景物,均極少見到變形或突然出現變化的狀況。另外亦有多段 Sora 影片加入水或玻璃的反射效果,也做得相當出色。
不過影片也不是完全完美,例如無法正確描繪出文字,有時也會出現無中生有的狀況。其他 AI 模型都會挑戰模擬人類舞蹈,但 OpenAI 就只有一段 Pixar 式 CG 角色跳舞影片。
OpenAI 基於重要的安全理由,並未向一般公眾開放使用 Sora,只向少數影像藝術家、設計師和製片人提供收集意見,同時與研究虛假、惡意或歧視性內容的「Red Team(紅色小隊)」合作探討潛在的傷害和風險。OpenAI 正著手開發工具以幫助人們分辦影片是由 Sora 生成的,並計劃在影片中加入 C2PA 元數據。