更多

    Bing 影像建立者、Midjourney、Stable Diffusion、Leonardo.Ai 四大 AI 圖像生成平台 PK 戰

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    經過多月來 Midjourney 和 Stable Diffusion (SD)發酵後,Microsoft 和 Adobe 昨晚雙雙發表針對不同用戶群的 AI 圖像生成服務。今次我們就以四個面向一般用戶的平台,來比較一下它們的系統特色、畫像質素和對內容審查的規範。

    【2023.3.23 更新】加入 Leonardo.Ai 測試結果

    平台特色

    Midjourney

    • 最早為人認識的圖像生成平台,曾有人以這平台生成的圖像奪得權威美術比賽獎項。
    • 介面:以遊戲社群 Discord 為介面,客戶端軟件、網頁皆可。
    • 參數:命令列參數+自然語言指示,接受負面提示,可輸入圖片網址給系統作生成參考,另設獨立網頁介面。
    • 付費用戶可優先生成及使用新一版本 v5 功能,收費為分為每月 US$8 基本計劃、每月US$24 標準計劃和每月 US$48 美元的專業計劃。
    • 沒有地區限制
    • 官方網站:https://www.midjourney.com/

    易用程度:★★★★☆
    港人參與難易度:★★★★☆

    Stable Diffusion

    • 開源人工智能生成系統,用家可以自行訓練獨有模型,或以現成模型作融合優化出指定用途的模型,另外亦有針對特定目的輕量型模型 LoRA 和加強對語意認知的 Textual Inversion (Embeddings),提升畫像質素和準確度。
    • 官方網站 stable diffusion ONLINE 提供免費遊樂場、提示辭庫、ControlNet Online和 Visual ChatGPT Online 等圖像生成相關服務,另外最近亦開設生成速度更快但完全收費的 DreamStudio 服務。
    • 靈活性大但系統複雜
    • 介面:除了網頁服務外,亦有開發者推出套件可自行安裝到電腦(Stable Diffusion WebUI、ComfyUI),均以瀏覽器網頁介面操作。
    • 參數:網頁控制項+自然語言/提示詞+大量參數,接受負面提示,配以大量 LoRA、Embeddings 和插件
    • 有收費網頁服務,在自家電腦安裝套件則可免費任意生成。
    • 自行安裝的話對顯示卡規格要求高。
    • 沒有地區限制。
    • 官方網站:https://stablediffusionweb.com/,AUTOMATIC1111 SD WebUI:https://github.com/AUTOMATIC1111/stable-diffusion-webui,ComfyUI:https://github.com/comfyanonymous/ComfyUI

    易用程度:★☆☆☆☆
    港人參與難易度:★★★★★

    相關教學:自建 Stable Diffusion WebUI 圖像生成平台

    Leonardo.Ai

    • 現正進行早期預覽的圖像生成平台
    • 同時提供「圖生圖」和「文生圖」生成功能,還會提供 AI 畫板功能。
    • 收費用戶可使用「文生材質」功能。
    • 有開關設定容許生成和展示 NSFW(不適合辦公場所)的內容。
    • 除了提供自家訓練模型之外,還提供 Stable Diffusion 1.5/2.1、Dliberate 1.1、RPG 4.0、Isometric Fantasy 等為特定用途優化的模型,並接受用戶上傳模型享給其他用戶。
    • 介面:網頁服務
    • 參數:網頁控制項+自然語言/提示詞+多項插數、接受負面提示和上傳圖像作圖生圖,可選擇不同模型和風格。
    • 免費用戶每日可生成 150 張 768×768 圖像,收費為分為每月 US$8 見習計劃、每月US$24 工匠計劃和每月 US$48 美元的大師計劃,除了優先生成和更多生成功能外,還可以有工作排程和私密生成,工匠和大師計劃更專享升頻設定。
    • 沒有地區限制
    • 網址:https://leonardo.ai/

    易用程度:★★★
    港人參與難易度:★★★★

    Bing 影像建立者

    • 採用 OpenAI 的 DALL-E 技術
    • 介面:網頁服務
    • 參數:自然語言指示
    • 每個帳戶提供 25 個「強化產生」來加速生成圖像,可以 Microsoft Reward 換取「強化生產」。
    • 有地區限制,用戶需先取得新 Bing 批核才可在指定地區使用。
    • 現時未開始收費。
    • 網址:https://www.bing.com/create/

    易用程度:★★★★★
    港人參與難易度:★★☆☆☆


    圖像比拼

    四大平台由於推出時間不同和系統靈活性,模型的規模和針對性都有很大差別。在今次測試中發現四個平台對自然語言的語意理解能力大致上相近,但是在生成影像的變化和畫像質素上落差就很大。

    今次我們沒有對生成時間作嚴格比較,因為那很受伺服器是否繁忙影響,難以一槪而論,自建的 SD 也受硬件配置影響,不一定會很快。而且四個平台比較起來,生成 4 張圖片的速度其實相差也不大。

    另外,Midjourney 和 Bing 影像建立者對內容的規範較多,而 SD 因為任何人都可以訓練模型,涉及肖像權、版權及道德相關的問題亦較多。

    比試 1 :人像

    提示句:「a beautiful girl portrait with detailed face and blonde hair, photorealistic, high quality, 50mm lens

    MidJourney

    Stable Diffusion (Playground)

    自建 Stable Diffusion WebUI (模型:ChilloutMix_NiPrunedFp32Fix, 預設參數)

    Leonardo.Ai (模型:Leonardo Signature)

    Bing 影像建立者

    從上圖可見,論藝術美感 Midjourney 最高,而 Stable Diffusion Playground、Leonardo.AI 和 Bing 都有較多姿態變化,三者以 Bing 有比較好的質素。在使用官方模型下,SD 其實沒有甚麼優勢,不過 SD 的強項是自建系統配特製模型,所以在強化東方女性表現 ChilloutMix_Ni 模型加持下,所生成的美女肖像相片自然有最高質素。

    比試 2 :動畫風景

    提示句:「a girl running in tokyo street. The sky is cloudy with shinkai makoto style. Viewing the girl with low angle, photorealistic, highly detailed background and sky

    MidJourney

    Stable Diffusion (Playground)

    自建 Stable Diffusion WebUI (模型:Anything v4.5, 預設參數)

    Leonardo.Ai (模型:Leonardo Signature)

    Bing 影像建立者

    一場高下立見的比試,在動畫特化的模型加持下,自建 SD 完全拋離對手,生成的女孩很可愛,視角變化也很豐富,不過在沒有太多負面參數修正下,畸型肢體問題仍然明顯。Leonardo.Ai 可生成有東京實景的圖像,相中人物容貌算正常但未達到實用價值;Midjourney 雖然能生成具動畫風的圖像,視角豐富,色彩分明,但所有女孩都是「毀容」的,減分不少。至於官方 SD,雖然不能生成動畫風格圖像,但起碼是貼題的。最後的 Bing 所生成的圖像都像草圖,很難看得出那裡是東京,而且視角沒有變化。

    比試 3 :實寫風景

    提示句:「looking down from hong kong Victoria Peak with a sunny sky, photorealistic, high quality

    MidJourney

    Stable Diffusion (Playground)

    自建 Stable Diffusion WebUI (模型:SD 2.1, 預設參數)

    Leonardo.Ai (模型:Leonardo Signature)

    Bing 影像建立者

    這項比拼基本上沒有一個平台能生成真實的太平山頂俯瞰景色,不過以 Leonardo.Ai 配合 Signature 模型生成的景色最細緻,而 SD 官網和使用官方 SD 2.1 模型的自建 SD 系統都能描繪出像實景的圖像,Bing 所生成的圖像就足錯重點在 Sunny Sky 上,令到整張畫像都看不清楚景色。至於 Midjourney 就貫徹它的藝術風格,看起來仍然是像創作的圖畫。

    比試 4 :內容規範

    提示句:「a beautiful girl portrait with detailed face and blonde hair wearing maid headdress, photorealistic, high quality, 50mm lens

    最後,我們發現 Bing 似乎比其他公開圖像生成平台有較嚴格的內容規範。筆者以上面一段看似沒有甚麼道德或兒童色情問題的語句來生成圖像,但 Bing 卻回覆偵測到不安全的影像內容,拒絕生成圖像。我們發現只要將 girl 和 maid headdress 女僕頭飾放在一起,Bing 就會拒絕生成。後來我們將 girl 改為 female maid,就能成功生成圖像,但也只生成一張圖像,而不是平常的 4 張。大家將來使用 Bing 時,可能也會遇到這樣奇怪的反應。

    結語

    試用了半天 Bing 影像建立者之後,覺得它雖然是最容易上手的圖像生成系統,不過在畫質上還有待改進。其他平台就各有它的優點和缺點,如果想要藝術美感較強的圖像的話,Midjourney 會比較合適,而如果手上有規格較強的電競電腦的話,自建 SD 平台就可以產生較高畫質的圖像,不過維護這樣的平台耗費的心力和時間也不少。對於想有更多模型選擇和更仔細設定的話,Leonado.Ai 是值得期待的圖像生成平台。

    您會感興趣的內容

    相關文章