阿里雲開源 70 億參數大語言模型　學術及研究機構等免費可用

阿里雲在今年 4 月推出大語言模型「通義千問」，當中包含超過 70 億參數的各種模型。該公司決定開源包括預訓練的基座模型 Qwen-7B 和基於這模型的對話模型 Qwen-7B-Chat ，於其 AI 模型社區 ModelScope 及 AI 協作平台 Hugging Face 上架。全球學術、研究及商業機構可免費取得上述模型的代碼、模型權重和文檔。若涉及商業應用需求，每月活躍用戶少於 1 億的公司可免費使用模型，用戶數超過該數量的企業可向阿里雲申請許可證。

Qwen-7B 在超過 2 萬億 token 數據集上預訓練，涵蓋通用和專業領域的中英文及其他多語種資料、代碼和數學內容，上下文長度可達 8,000 。 Qwen-7B 和 Qwen-7B-Chat 模型可部署在雲端及本地基礎設施上，以便用戶調校模型並建立合適的生成式 AI 模型。

Qwen-7B 預訓練模型於英文能力基準測評 MMLU （大規模多任務語言理解）得分 56.7，這測評目的考驗文本模型在 57 個不同任務中處理多任務的準確性，涵蓋初等數學、計算機科學和法律等多個領域。在中文常識能力測試為 C-Eval 上，並在 Leaderboard 獲得最高分。該測評集涵蓋了人文、社會科學、STEM 等四大領域的 52 個學科。

阿里雲於 7 月發布 AI 繪畫創作大模型「通義萬相」，以及推出通用框架 ModelScopeGPT 。後者旨在協助用戶透過使用 ModelScope 平台上的 AI 模型完成各類複雜的 AI 任務，適用領域包括語言、視覺和語音等。 ModelScope 開源平台由阿里雲於去年推出，目前匯集由 20 間 AI 機構提供的 1,000 多個 AI 開源模型。

阿里雲開源 70 億參數大語言模型 學術及研究機構等免費可用

您會感興趣的內容

相關文章

阿里雲開源 70 億參數大語言模型　學術及研究機構等免費可用