AWS re:Invent 2024 繼續發布大量生成式 AI 產品,另一主要發布是基礎模型 Nova。Amazon Nova 模型設有 6 個版本:Micro、Lite、Pro、Premier、Canvas 和 Reels,強調評分表現高過 Google Cloud 的 Gemini 和 Meta 的 Llama,生成回應速度快,而且較其他大型語言模型節省最多 75% 成本。
已升任亞馬遜行政總裁的 Andy Jassy 回歸 re:Invent 舞台發表 Nova 模型。他表示,亞馬遜是 AWS 最大客戶,當初建立 AI 技術並非只為扮有型,而是要解決實際業務問題才決定開發更多基礎模型,將生成式 AI 融入各項業務,提升日常運作效率。
以客戶服務為例,加入對話機械人接待客戶。客戶最常查詢的是追蹤包裹,只要輸入「追蹤」,透過 LLM 能理解所指的包裹,尋找相關資訊回覆。又例如協助逾 50 萬賣家產生詳細的產品網頁,僅用幾句簡單文字和圖片便可生成內容豐客的產品資訊,吸引客戶購買。所建立的模型過去幾個月在內部使用已見成效,開放給 AWS 客戶使用可能同樣有業務價值。
Nova 處理文字強調低時延
Nova 模型有多個版本:
- Nova Micro 處理文字模型,賣點低時延和低成本。
- Nova Lite 低成本多種模態模型,可處理文字、影像和影片。
- Nova Pro 支援多種模態,同時有準確度、速度和成本優勢。
- Nova Premier 處理複雜推理任務,能夠指導精練自訂模型。
- Nova Canvas 生成圖像。
- Nova Reel 生成影像。
Nova 支援超過 200 種語言,Micro 版本的上文下理範圍有 12.8 萬字詞元(Token),Lite 版本和 Pro 版本為 30 萬,能分析 30 分鐘影片內容。明年首推出的 Premier 版本支援超過 200 萬詞元。
雖然 Andy Jassy 未有公布各版本的參數,不過將處理文字的 Micro 版本與 Meta 的 LLaMa 3.1 8B 和 Google Gemini 1.5 Flash-8B 作比較,11 基準測試均表現更佳或平分秋色。Micro 版本支援每秒輸出 210 個詞元,速度較其他小型模型更快,適用於即時回應的環境。
Lite 版本與 OpenAI 的 GPT-4o mini 和 Anthropic 的 Claude 3.5 Haiku 比較,大部分基準測試均持平或更佳。理解圖片和影片、代理智能工作流程的基準測試獲認證。
Pro 版本與 GPT-4o 及 Gemini 1.5 Pro 的比現亦大部分持平或更佳,僅落後於 Claude Sonnet 3.5v2 比較的基準測試。Pro 版本通過綜合 RAG 基準測試(Comprehensive RAG Benchmark)、Berkeley Function Calling Leaderboard 和 Mind2Web 的認證,可用於遵循指令和多模態智能工作流程。
Canvas 版本用文字提示產生圖像,甚至作修改。Reel 用文字或參考圖像生成影片,目前可生成 6 秒影片,支援平移、360 度旋轉和縮放等影片調整,稍後將加長至生成 2 分鐘影片。
明年推出 any-to-any 模型
Andy Jassy 又預告,明年將推出語音到語音(speech-to-speech)模型,支援即時翻譯和非語言訊號(如語調和節奏),提供低時延和接近真人的對話模式,預計可改變對話式 AI 技術。另外,明年中推出任意到任意(any-to-any)模型,可以輸入文字、圖像、音樂或影片,輸出任何多媒體內容。
企業和開發人員經 Bedrock 存取 Nova 模型,用企業數據和 RAG 方法自訂調整。Andy Jassy 表示,亞馬遜再度推出基礎模型,連同 Claude、Stable Diffusion、Llama、Mistral AI 等模型,目的讓客戶有更多選擇,取用合適的模型完成任務,跟 EC2 提供自訂 Arm 處理器和訓練晶片,又有業界的處理器和 GPU 同出一徹。
低成本、低時延和高準確度
AWS 副總裁、機械學習及 AI 總經理 Vasi Philomin 補充,Nova 模型可視為下一代 Titan 模型,不過 Titan 模型實為文字嵌入式,配合 RAG 使用。除了自行研發,還在 Bedrock 上給客戶提供眾多模型,有更多選擇,而且不會有單一模型適用所有環境。
Vasi Philomin 又稱,開發 Nova 模型另一考慮是針對使用情況,企業需要低成本、低時延和高準確度,模型設不同版本為達到此彈性。Micro 可用於最常見的處理文字,低成本和快速回應,足以應付大部分用途。目前按 BedRock 上的用戶數據反映,大部分都選用起碼兩個模型。
然而,Nova 模型不公布各版本的參數資料,Vasi Philomin 認為,企業客戶按各版本的智能級別、上文下理範圍的詞元選擇模型已足夠,實際上模型的參數可能隨著新版本而增加,單憑參數難作準確比較。
Vasi Philomin 指出,明年推出的語音到語音模型和任意到任意模型將進一步擴展 AI 的用途,前者可做實時翻譯,打破現實環境的語言障礙;後者不限來源,在單一模型能夠執行多種任務。
AWS re:Invent 2024 相關報道
AWS re:Invent 2024 還有其他新發布,包括新一代基礎模型 Amazon Nova!未能親身前往美國的你,歡迎參加 12 月 19 日香港站 AWS re:invent recap,同樣有最焦點、最重要、最新鮮的內容在場分享,你可以用最短時間掌握最新的 AWS 技術,不要錯過!
登記網址:https://ow.ly/9QXk50Uo4fU