圖像AI的飛躍:Google和字節跳動最新模型的比較

Decrypt

簡要

  • 兩款模型在圖像生成前引入多步推理,能更可靠地處理複雜提示、參考圖像以及延伸的編輯流程,較早期的擴散系統更具優勢。
  • Seedream在價格上低於Google,並允許本地運行與實景圖像編輯,而Nano Banana則緊密嵌入Google的消費者與企業生態系統中。
  • 測試顯示,Seedream在多輪編輯中更好地保持角色身份與空間一致性,而Nano Banana則提供更快的輸出速度與更優的圖像中文字渲染。

本週內,兩款最具實力的AI圖像模型幾乎同時推出,預示著用戶創作內容的方式將迎來重大變革。Nano Banana 2——Google內部稱為Gemini 3.1 Flash Image——於2月26日發布,立即引發AI界的熱議。它是Nano Banana Pro的繼任者,該模型在2025年11月推出後成為AI圖像編輯的黃金標準。ByteDance最新的圖像生成產品Seedream 5 Lite則在幾天前推出。儘管前者伴隨Google的行銷大肆宣傳,後者卻幾乎沒有正式公告。儘管媒體報導差距巨大,但能力差距卻較為接近。

這有什麼重要?
兩款模型都基於相同的核心架構思想:賦予圖像生成器在繪圖前思考的能力。
這意味著在生成前即能進行即時網路搜索整合,以及多步鏈式推理來解讀複雜或模糊的提示,並能在延伸的編輯流程中處理參考圖像。
這是一個真正的轉變,較一年前的生成模型,當時Stable Diffusion被廣泛視為革命性技術。
它們都能輸出最高4K解析度,支持多圖像參考輸入以確保一致性流程,並能在單一會話中維持角色與物件的視覺連貫性。

兩者都能在圖像內生成風格化、易讀的文字,雖然效果不完全相同。並且都進入了一個已經擁有OpenAI的GPT Image 1.5、Black Forest Labs的Flux.2,以及日益壯大的中國模型市場,這些模型在價格與彈性方面激烈競爭。
但對最終用戶來說,哪個選擇更佳?我們測試了兩款模型來幫助找到答案。

技術與價格比較
價格差距是首要了解的點。
Google通過Gemini API以每百萬輸出圖像標記60美元定價,實際上約為每張512px圖像0.045美元,1K解析度0.067美元,2K0.101美元,4K0.151美元。
Seedream則收取每張圖像0.035美元的固定費用,不論解析度高低,因此在512px以上的尺寸,Seedream都較便宜。
在4K解析度下,Nano Banana每張圖像的成本是Seedream的四倍多。對於大量生產流程,這個差距會迅速累積。

供應渠道完全不同。Nano已在Google完整的消費者與開發者生態系統中運行,包括Gemini應用、Google搜尋的AI模式、Google Lens、AI Studio、Vertex AI以及Google Flow視頻創作工具,已嵌入數億用戶的日常使用中。
Seedream則通過ByteDance的CapCut、Jianying創意應用、第三方API聚合平台,以及ByteDance專屬的圖像生成界面Dreamina來提供服務。一個關鍵差異是:Seedream可以本地運行,而Google不允許。

平台體驗也是一個差異點。Gemini以聊天機器人為主,圖像生成是次要。它能快速生成高質量圖像,Google的速度宣稱在實踐中也能得到證明。
但你是在一個並非為反覆視覺流程設計的對話界面中工作。
Dreamina則專為圖像創建而建,具有專用的參考管理、多步編輯和構圖控制工具。
此外,Dreamina的生成排隊時間明顯長於Gemini界面下的Nano。快速測試或單一圖像,Gemini較快;但在持續多輪編輯中,Dreamina的結構更連貫。

在內容審查方面,Gemini在大多數情況下拒絕與真人相關的內容——例如臉部相似度修改、涉及公眾人物的照片操控或任何涉及可識別主體的暗示性內容,都會被拒絕。
Seedream則規則寬鬆得多。ByteDance允許編輯真實圖像,並在Google不願涉足的範疇內處理可識別主體,這也是Seedream在內容創作者中擁有較多用戶的原因之一。

在API層面,兩款模型都支持可配置的推理深度。Nano允許開發者設定推理層級從Minimal到High或Dynamic,讓模型在承諾渲染前能處理較複雜的提示。
Seedream則在架構中實現了鏈式推理監督,提升多約束與空間複雜生成任務的提示忠實度。

兩者都不會讓推理過程完全透明,但在面對困難提示時,表現都比沒有推理的前代模型更佳。

角色一致性:迷你測試活動

此測試旨在檢驗模型是否能在多次編輯同一張真實圖像時,保持可辨識的身份。原始主體是一對在購物中心拍攝的真實夫妻。
目標是將他們的服裝和其他元素在五次迭代中進行更換,保持臉孔、身形與視覺身份的連貫性。
Gemini聊天機器人直接拒絕處理真實照片——符合其內容政策。測試Nano Banana 2則需直接透過API操作。

Nano:

Nano的結果雖然視覺上細膩,但在後期迭代中明顯出現身份漂移。

場景幾何保持不變——LED隧道環境、瓷磚人行道的透視、背景招牌位置都很一致。
但人物本身幾乎被重塑。到最後一輪,女性已不再是原來的那個,男性的形象也幾乎完全改變:不同的年齡範圍、不同的體型、不同的臉型、不同的髮型。
模型產出雖然漂亮,但並非原本的那對夫妻。若用於編輯,若上傳的參考圖沒有臉部特徵,或能減少模型混淆,或許能改善。

Seedream:

Seedream在身份保持方面明顯更佳。女性的臉型、微笑輪廓與頭部傾斜在多輪中都緊扣原圖。
男性則較多保留原有的體型與存在感。兩人之間的姿勢連貫性也較好——手臂擺放、距離、站姿都保持一致,這對於需要在多個創意輸出中保持同一場景的應用非常重要。

當然,也有些微的跡象,比如皮膚略微平滑、腰部略微重塑,以及整體質感的輕微退化。
但這對夫妻仍然是那對夫妻。對於需要在多個創作中保持一致身份的流程來說,這個差異並不小。

擴展畫布與場景延伸
擴展測試中,兩款模型都將一張現代簡約客廳圖像自然延伸到16:9比例,左右擴展場景,同時保持光線一致與空間邏輯。
提示內容包括白牆、米色沙發、木質咖啡桌與室內植物,屬於較為直觀的設計範圍。

Nano:

Nano Banana 2產出乾淨、無縫的結果,沒有明顯的拼接痕跡或色調帶狀。牆色、日光平衡與地板材質在擴展部分都保持一致。
模擬窗戶的光線方向合理延續到擴展畫面中。技術上幾乎完美融合。
但模型加入了場景中不存在的元素,例如右側的籃子與背景的建築。相比之前的模型,已經非常令人印象深刻。

Seedream:

Seedream在原始輸出較為簡單,便於後續修改。
擴展左側加入了第二個大型盆栽與完整的窗簾流動,與窗戶的暗示相符。
右側延伸出次牆、裝飾畫與低矮木質櫃,整體保持簡約風格——淺木色、柔和中性色,沒有違背原有美學規則。
光線方向在整個擴展畫面中保持一致。天花板、吊燈位置與地板人字拼花圖案都合理對齊,整個空間看起來更像一個合理擴展的場景,而非重新構圖的結果。未發現明顯瑕疵或異常。

在需要空間真實感與建築真實性的生產場景中,Seedream 5 Lite更為可靠;若更重視逼真效果而非絕對忠實,Nano Banana 2則可能是更佳選擇。

非寫實圖像生成:YouTube縮圖測試
此測試從編輯與擴展轉向純粹生成,內容為一個“AI IMAGE WAR”的YouTube縮圖,副標題列出兩款模型,採用分屏布局,左側大字標題,對比鮮明的高能色彩,比例16:9。

縮圖生成要求準確的字體、明確的構圖層次與強烈的視覺能量——這三者必須同時達成。

Nano:

Nano完美理解縮圖的排版規則。
它產出一個左側大字、對比強烈的排版,右側是戲劇性的分屏對決,鮮豔的霓虹色彩(暖橙與電藍)形成強烈對比,中間閃電分隔線強化對比效果。
標題層次清晰——“AI IMAGE WAR”在視覺上佔據主導,帶有描邊與光暈效果,即使在手機小屏幕上也清楚可辨。
文字渲染準確,沒有拼寫錯誤或字符亂碼,字距一致。臉部細節豐富,情感強烈。
整體視覺能量高,完全像是一個吸引點擊的縮圖。

Seedream:

Seedream則採用不同策略。它沒有追求寫實的戲劇性臉孔,而是生成風格化的吉祥物——一個香蕉角色與一個發光的神經球,代表兩款模型,整體風格更偏向圖像化、圖標化。
布局更為整潔,標題突出,副標明確,模型名稱用框線包裹,便於一眼識別。
字體設計堅實:線條清晰、在縮放時易讀,沒有明顯瑕疵。相較Nano Banana的炫目與情感張力,Seedream產出較為低調、差異化且更易於作為持續的視覺識別。
這可能是風格選擇,但就我們主觀判斷,若追求病毒式點擊率,Nano Banana 2的電影感更具優勢。

寫實圖像生成:多約束準確性
最後測試衡量模型在嚴格多元素提示下的準確度,是否能在不違反或誤解約束的情況下完成任務。
提示內容:一位32歲女性建築師在日落時分的屋頂上,穿米色風衣、圓形眼鏡,左手持捲起的藍圖(特別指定),背景是略微模糊的城市天際線,金色時段光線配合柔和的邊緣光,模擬50mm鏡頭的淺景深,縱向4:5比例,逼真的肌膚質感與微妙的膠片顆粒。每個元素都是獨立可能失誤的約束。

Nano:

Nano產出一個側身看向遠方的白人女性——這是未在提示中明確要求的敘事選擇,顯示偏向創意解讀而非嚴格遵守約束。
米色風衣、圓形眼鏡與捲起的藍圖都正確呈現。屋頂與模糊的天際線也合理存在。
金色時段光線存在,但偏冷,與提示要求的暖色調不符。邊緣光較為低調,未明確界定。景深效果良好,但空間壓縮感更接近35mm到40mm的模擬,而非真正的50mm。
膠片顆粒幾乎不可見,肌膚質感逼真但帶有美容系統常見的輕微平滑偏差。整體表現良好,但有些微的自主選擇。

Seedream:

Seedream則產出一位面向鏡頭的亞洲女性——這是未明確指定視線方向的中性預設。
所有指定元素都正確呈現。金色時段的暖色更為明顯(甚至略過頭),邊緣光清楚分離主體與背景,符合提示意圖。
景深與焦點壓縮更接近真實50mm模擬,比例自然。肌膚質感細膩,微對比度更佳,較Nano Banana少平滑瑕疵。
但其中一張藍圖生成不佳,更像是瑕疵而非正式元素。
整體來看,Seedream的結果更居中、技術更精確,少些解讀性添加,但Nano Banana的圖像更逼真。

你可能要注意的連續性問題
在長時間API會話中,兩款模型都出現了畫質退化的現象,這在流程開始時並不存在。
Seedream會在多次生成後產生模糊不清的人臉,Nano則完全失去角色身份,生成的角色與最初設定毫無關聯。
兩者都似乎在會話持續時間越長,推理深度越低——就像它們在已完成的工作上花費越少。

這可能是故意的計算限制、在高負載API流量下的負載平衡行為,或架構上的設計問題,外界尚不清楚。
但這種現象在長鏈式生成流程中需提前預料。兩者在會話開始階段表現最佳,持續大量生成則會退化。
理想情況下,避免連續多次迭代,應在一次操作中請模型進行合理數量的修改,以避免性能下降。
但這是一門藝術:一次迭代中修改過多會導致提示偏離,修改過少則需多次迭代,反而會影響角色一致性。

結論:誰勝出?
Nano在文字渲染、原始生成速度、生態系統整合與生成能量方面勝出。其最大優勢在於文字準確——沒有亂碼、沒有不一致的字體、沒有重複文本。
它生成速度快,能在數十億用戶已在使用的產品中運行。其在網路搜索後決定渲染內容的知識整合,使輸出更具編輯底蘊而非僅僅是美學。
如果你的工作流程深度嵌入Google生態系,且圖中文字的準確性不可妥協,或需要快速迭代且不涉及真人,Nano是更強的工具。

Seedream則在成本、平台設計、內容彈性、空間任務的結構規範與多步編輯中的角色保持方面勝出。
固定的0.035美元價格,使其成為大量圖像生成流程的實用預設選擇。Dreamina的專用界面比Gemini的聊天機器人更適合持續創作。
寬鬆的內容政策也允許Google不願涉足的應用場景。
在需要在多次迭代中保持真實主體身份一致的流程中——這是行銷活動的核心需求——Seedream在所有測試中表現更佳。

查看原文
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言