更多

    即時交談如與人對話 OpenAI 發表 GPT-4o 模型

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    OpenAI 在凌晨的春季更新串流節目中發表 GPT-4o 模型,它具備 GPT-4 Turbo 的同等智能,但回應速度快一倍,並能同時處理語音、文字和視覺輸入。新模型將開放給免費用戶。

    GPT-4o 中的 o 字代表 omni(全向),是 OpenAI 最快速和最實惠的旗艦級模型,強調多模態能力提升。OpenAI 在影片中示範使用 GPT-4o 模型的 ChatGPT app 即時語音助理功能,它同時具備幾乎即時的語音辨識和電腦視覺能力,能觀看手寫文字、圖案及算式,即時翻譯,又能即時分析用戶批准它觀看的畫面內容,包括即時分析程式或圖表,提供意見。ChatGPT 語音助理說話相當自然,用戶也像與真人交談一樣,回應相當快速,不過她有點長氣,示範期間主持人也多次打斷她。

    GPT-4o 同時向收費用戶提供 API,讓開發人可即時使用新模型來開發 AI 應用和插件。OpenAI 強調它的效能比 GPT-4 Turbo 提升一倍,但成本就只是 GPT-4 Turbo 的一半,上下文窗口仍然是 128,000 token。現時提供的模型標記日期為 2024-05-13,但用來訓練的數據卻比 2024-04-09 的 GPT-4 Turbo with Vision 舊,前者使用至 2023 年 10 月的數據來訓練,而後者就用到 2023 年 12 月的數據。

    除此之外,OpenAI 董事 Greg Brockman 又發放另一段影片,示範兩個 GPT-4o AI 即時語音對談,其中一個 AI 獲准使用鏡頭觀看 Brockman 的衣著和周圍發生的事情,另一個 AI 不能觀看,但就可詢問和指示有鏡頭 AI 形容所見到的景物。之後 Brockman 更要求兩個 AI 即時對唱,雖然唱得不動聽,但對這種突發並且具創作性的要求也能即時反應,可見 GPT-4o 的威力。

    Google 也將於明日凌晨舉行 Google I/O 2024 發表會,相信會集中在 Gemini 等 AI 功能和服務上。在 OpenAI 搶頭啖湯發表 GPT-4o 模型和展示水準相當高的語音助力能力後,Google 會否變陣應對?

    最新影片

    您會感興趣的內容

    相關文章