更多

    商湯現場示範日日新 徐立:AI 生成有錯屬正常

    Eric Chong
    Eric Chong
    商業・科技・創業・編輯

    科技企業近月公布多個大型人工智能模型,惟只有少數設即場示範。其中 OpenAI 的 GPT-4 在 YouTube 直播演示,商湯科技行政總裁徐立則在發布會上現場示範。徐立表示,大型模型生成難免有錯,錯了互動多幾次就正確。

    商湯在技術交流日發表「日日新」多模態的大型模型,以及「商量」、「秒畫」、「如影」等 AI 生成工具,徐立在台上即時示範各項產品。大會安排示範人員在舞台的一旁,並設有直播鏡頭將畫面即時投放在大熒幕上。

    徐立透露,正式示範之前經過三次綵排,AI 生成結果有不同的錯誤實屬難免,已有流程為錯誤作補救。他認為,大型模型已有足夠的訓練,生成結果未如所料均屬正常,大型模型不能一蹴而就,亦有可能只是 AI 不知用戶的意圖。「AI 錯了,只要互動多幾次就會正確。若每個錯誤加入人手回饋修正,即使準確度只提高 0.1 ,亦代表進步邁向正確。」

    徐立又談到 AI 大型模型的未來發展,未必以參數數量為先,處理的數據量亦重要。大型模型的參數數量和數據量取決於 GPU 運算能力。然而,運算資源有限,若分配更多給參數規模,便減少了數據量,正是當前技術所限。因此,發展方向應該控制參數增長,調撥資源處理數量。實際上,現時有品質的數據很少,甚至不足夠訓練更大參數規模的模型。

    徐立補充,按目前商湯的運算能力,預計應該可開發 5,000 億參數的模型,不過仍要平衡參數規模和處理數據。

    商湯現時約有 27,000 張 GPU,合共 5,000 PFLOPS,為亞洲最大的智能運算平台之一。其中大部分運算資源集中在中國上海臨港的人工智能運算中心。徐立預計,將買入多數千張 GPU 令整體運算能力維持在 7,000 PFLOPS 至 8,000 PFLOPS 之間,亦會更換舊款 GPU 。

    由於美國商務部要求高階 GPU 出口至中國需要獲許可證, NVIDIA 為此向中國特別生產 A800 GPU 產品,特點在於降低數據傳送頻寬以符合要求。徐立認為,這限制將令兩國的運算能力出現差異。

    新發表的「日日新」大型模型,除了 API 對外開放之外,還向客戶提供模型即服務(Model-as-a-Service)。徐立指出,目前向 8 個大型企業客戶提供 MaaS ,自訂和訓練大型模型,但運算能力已見頂,不能再服務太多客戶。

    相比其他中國廠商發表大型模型,如百度的「文心一言」阿里巴巴的「通義千問」、華為的「盤古」等,商湯的優勢在於獨立。徐立認為,互聯網公司或會優先服務旗下的產品,亦難以分享數據訓練模型,商湯則沒有這種競爭考慮。

    您會感興趣的內容

    相關文章