圖像AI的飛躍：Google和字節跳動最新模型的比較

Decrypt

2026-03-03 02:16:21

簡要

兩款模型在圖像生成前引入多步推理，能更可靠地處理複雜提示、參考圖像以及延伸的編輯流程，較早期的擴散系統更具優勢。
Seedream在價格上低於Google，並允許本地運行與實景圖像編輯，而Nano Banana則緊密嵌入Google的消費者與企業生態系統中。
測試顯示，Seedream在多輪編輯中更好地保持角色身份與空間一致性，而Nano Banana則提供更快的輸出速度與更優的圖像中文字渲染。

本週內，兩款最具實力的AI圖像模型幾乎同時推出，預示著用戶創作內容的方式將迎來重大變革。Nano Banana 2——Google內部稱為Gemini 3.1 Flash Image——於2月26日發布，立即引發AI界的熱議。它是Nano Banana Pro的繼任者，該模型在2025年11月推出後成為AI圖像編輯的黃金標準。ByteDance最新的圖像生成產品Seedream 5 Lite則在幾天前推出。儘管前者伴隨Google的行銷大肆宣傳，後者卻幾乎沒有正式公告。儘管媒體報導差距巨大，但能力差距卻較為接近。

這有什麼重要？
兩款模型都基於相同的核心架構思想：賦予圖像生成器在繪圖前思考的能力。
這意味著在生成前即能進行即時網路搜索整合，以及多步鏈式推理來解讀複雜或模糊的提示，並能在延伸的編輯流程中處理參考圖像。
這是一個真正的轉變，較一年前的生成模型，當時Stable Diffusion被廣泛視為革命性技術。
它們都能輸出最高4K解析度，支持多圖像參考輸入以確保一致性流程，並能在單一會話中維持角色與物件的視覺連貫性。

兩者都能在圖像內生成風格化、易讀的文字，雖然效果不完全相同。並且都進入了一個已經擁有OpenAI的GPT Image 1.5、Black Forest Labs的Flux.2，以及日益壯大的中國模型市場，這些模型在價格與彈性方面激烈競爭。
但對最終用戶來說，哪個選擇更佳？我們測試了兩款模型來幫助找到答案。

技術與價格比較
價格差距是首要了解的點。
Google通過Gemini API以每百萬輸出圖像標記60美元定價，實際上約為每張512px圖像0.045美元，1K解析度0.067美元，2K0.101美元，4K0.151美元。
Seedream則收取每張圖像0.035美元的固定費用，不論解析度高低，因此在512px以上的尺寸，Seedream都較便宜。
在4K解析度下，Nano Banana每張圖像的成本是Seedream的四倍多。對於大量生產流程，這個差距會迅速累積。

供應渠道完全不同。Nano已在Google完整的消費者與開發者生態系統中運行，包括Gemini應用、Google搜尋的AI模式、Google Lens、AI Studio、Vertex AI以及Google Flow視頻創作工具，已嵌入數億用戶的日常使用中。
Seedream則通過ByteDance的CapCut、Jianying創意應用、第三方API聚合平台，以及ByteDance專屬的圖像生成界面Dreamina來提供服務。一個關鍵差異是：Seedream可以本地運行，而Google不允許。

平台體驗也是一個差異點。Gemini以聊天機器人為主，圖像生成是次要。它能快速生成高質量圖像，Google的速度宣稱在實踐中也能得到證明。
但你是在一個並非為反覆視覺流程設計的對話界面中工作。
Dreamina則專為圖像創建而建，具有專用的參考管理、多步編輯和構圖控制工具。
此外，Dreamina的生成排隊時間明顯長於Gemini界面下的Nano。快速測試或單一圖像，Gemini較快；但在持續多輪編輯中，Dreamina的結構更連貫。

在內容審查方面，Gemini在大多數情況下拒絕與真人相關的內容——例如臉部相似度修改、涉及公眾人物的照片操控或任何涉及可識別主體的暗示性內容，都會被拒絕。
Seedream則規則寬鬆得多。ByteDance允許編輯真實圖像，並在Google不願涉足的範疇內處理可識別主體，這也是Seedream在內容創作者中擁有較多用戶的原因之一。

在API層面，兩款模型都支持可配置的推理深度。Nano允許開發者設定推理層級從Minimal到High或Dynamic，讓模型在承諾渲染前能處理較複雜的提示。
Seedream則在架構中實現了鏈式推理監督，提升多約束與空間複雜生成任務的提示忠實度。

兩者都不會讓推理過程完全透明，但在面對困難提示時，表現都比沒有推理的前代模型更佳。

角色一致性：迷你測試活動

此測試旨在檢驗模型是否能在多次編輯同一張真實圖像時，保持可辨識的身份。原始主體是一對在購物中心拍攝的真實夫妻。
目標是將他們的服裝和其他元素在五次迭代中進行更換，保持臉孔、身形與視覺身份的連貫性。
Gemini聊天機器人直接拒絕處理真實照片——符合其內容政策。測試Nano Banana 2則需直接透過API操作。

Nano：

Nano的結果雖然視覺上細膩，但在後期迭代中明顯出現身份漂移。

場景幾何保持不變——LED隧道環境、瓷磚人行道的透視、背景招牌位置都很一致。
但人物本身幾乎被重塑。到最後一輪，女性已不再是原來的那個，男性的形象也幾乎完全改變：不同的年齡範圍、不同的體型、不同的臉型、不同的髮型。
模型產出雖然漂亮，但並非原本的那對夫妻。若用於編輯，若上傳的參考圖沒有臉部特徵，或能減少模型混淆，或許能改善。

Seedream：

Seedream在身份保持方面明顯更佳。女性的臉型、微笑輪廓與頭部傾斜在多輪中都緊扣原圖。
男性則較多保留原有的體型與存在感。兩人之間的姿勢連貫性也較好——手臂擺放、距離、站姿都保持一致，這對於需要在多個創意輸出中保持同一場景的應用非常重要。

當然，也有些微的跡象，比如皮膚略微平滑、腰部略微重塑，以及整體質感的輕微退化。
但這對夫妻仍然是那對夫妻。對於需要在多個創作中保持一致身份的流程來說，這個差異並不小。

擴展畫布與場景延伸
擴展測試中，兩款模型都將一張現代簡約客廳圖像自然延伸到16:9比例，左右擴展場景，同時保持光線一致與空間邏輯。
提示內容包括白牆、米色沙發、木質咖啡桌與室內植物，屬於較為直觀的設計範圍。

Nano：

Nano Banana 2產出乾淨、無縫的結果，沒有明顯的拼接痕跡或色調帶狀。牆色、日光平衡與地板材質在擴展部分都保持一致。
模擬窗戶的光線方向合理延續到擴展畫面中。技術上幾乎完美融合。
但模型加入了場景中不存在的元素，例如右側的籃子與背景的建築。相比之前的模型，已經非常令人印象深刻。

Seedream：

Seedream在原始輸出較為簡單，便於後續修改。
擴展左側加入了第二個大型盆栽與完整的窗簾流動，與窗戶的暗示相符。
右側延伸出次牆、裝飾畫與低矮木質櫃，整體保持簡約風格——淺木色、柔和中性色，沒有違背原有美學規則。
光線方向在整個擴展畫面中保持一致。天花板、吊燈位置與地板人字拼花圖案都合理對齊，整個空間看起來更像一個合理擴展的場景，而非重新構圖的結果。未發現明顯瑕疵或異常。

在需要空間真實感與建築真實性的生產場景中，Seedream 5 Lite更為可靠；若更重視逼真效果而非絕對忠實，Nano Banana 2則可能是更佳選擇。

非寫實圖像生成：YouTube縮圖測試
此測試從編輯與擴展轉向純粹生成，內容為一個“AI IMAGE WAR”的YouTube縮圖，副標題列出兩款模型，採用分屏布局，左側大字標題，對比鮮明的高能色彩，比例16:9。

縮圖生成要求準確的字體、明確的構圖層次與強烈的視覺能量——這三者必須同時達成。

Nano：

Nano完美理解縮圖的排版規則。
它產出一個左側大字、對比強烈的排版，右側是戲劇性的分屏對決，鮮豔的霓虹色彩（暖橙與電藍）形成強烈對比，中間閃電分隔線強化對比效果。
標題層次清晰——“AI IMAGE WAR”在視覺上佔據主導，帶有描邊與光暈效果，即使在手機小屏幕上也清楚可辨。
文字渲染準確，沒有拼寫錯誤或字符亂碼，字距一致。臉部細節豐富，情感強烈。
整體視覺能量高，完全像是一個吸引點擊的縮圖。

Seedream：

Seedream則採用不同策略。它沒有追求寫實的戲劇性臉孔，而是生成風格化的吉祥物——一個香蕉角色與一個發光的神經球，代表兩款模型，整體風格更偏向圖像化、圖標化。
布局更為整潔，標題突出，副標明確，模型名稱用框線包裹，便於一眼識別。
字體設計堅實：線條清晰、在縮放時易讀，沒有明顯瑕疵。相較Nano Banana的炫目與情感張力，Seedream產出較為低調、差異化且更易於作為持續的視覺識別。
這可能是風格選擇，但就我們主觀判斷，若追求病毒式點擊率，Nano Banana 2的電影感更具優勢。

寫實圖像生成：多約束準確性
最後測試衡量模型在嚴格多元素提示下的準確度，是否能在不違反或誤解約束的情況下完成任務。
提示內容：一位32歲女性建築師在日落時分的屋頂上，穿米色風衣、圓形眼鏡，左手持捲起的藍圖（特別指定），背景是略微模糊的城市天際線，金色時段光線配合柔和的邊緣光，模擬50mm鏡頭的淺景深，縱向4:5比例，逼真的肌膚質感與微妙的膠片顆粒。每個元素都是獨立可能失誤的約束。

Nano：

Nano產出一個側身看向遠方的白人女性——這是未在提示中明確要求的敘事選擇，顯示偏向創意解讀而非嚴格遵守約束。
米色風衣、圓形眼鏡與捲起的藍圖都正確呈現。屋頂與模糊的天際線也合理存在。
金色時段光線存在，但偏冷，與提示要求的暖色調不符。邊緣光較為低調，未明確界定。景深效果良好，但空間壓縮感更接近35mm到40mm的模擬，而非真正的50mm。
膠片顆粒幾乎不可見，肌膚質感逼真但帶有美容系統常見的輕微平滑偏差。整體表現良好，但有些微的自主選擇。

Seedream：

Seedream則產出一位面向鏡頭的亞洲女性——這是未明確指定視線方向的中性預設。
所有指定元素都正確呈現。金色時段的暖色更為明顯（甚至略過頭），邊緣光清楚分離主體與背景，符合提示意圖。
景深與焦點壓縮更接近真實50mm模擬，比例自然。肌膚質感細膩，微對比度更佳，較Nano Banana少平滑瑕疵。
但其中一張藍圖生成不佳，更像是瑕疵而非正式元素。
整體來看，Seedream的結果更居中、技術更精確，少些解讀性添加，但Nano Banana的圖像更逼真。

你可能要注意的連續性問題
在長時間API會話中，兩款模型都出現了畫質退化的現象，這在流程開始時並不存在。
Seedream會在多次生成後產生模糊不清的人臉，Nano則完全失去角色身份，生成的角色與最初設定毫無關聯。
兩者都似乎在會話持續時間越長，推理深度越低——就像它們在已完成的工作上花費越少。

這可能是故意的計算限制、在高負載API流量下的負載平衡行為，或架構上的設計問題，外界尚不清楚。
但這種現象在長鏈式生成流程中需提前預料。兩者在會話開始階段表現最佳，持續大量生成則會退化。
理想情況下，避免連續多次迭代，應在一次操作中請模型進行合理數量的修改，以避免性能下降。
但這是一門藝術：一次迭代中修改過多會導致提示偏離，修改過少則需多次迭代，反而會影響角色一致性。

結論：誰勝出？
Nano在文字渲染、原始生成速度、生態系統整合與生成能量方面勝出。其最大優勢在於文字準確——沒有亂碼、沒有不一致的字體、沒有重複文本。
它生成速度快，能在數十億用戶已在使用的產品中運行。其在網路搜索後決定渲染內容的知識整合，使輸出更具編輯底蘊而非僅僅是美學。
如果你的工作流程深度嵌入Google生態系，且圖中文字的準確性不可妥協，或需要快速迭代且不涉及真人，Nano是更強的工具。

Seedream則在成本、平台設計、內容彈性、空間任務的結構規範與多步編輯中的角色保持方面勝出。
固定的0.035美元價格，使其成為大量圖像生成流程的實用預設選擇。Dreamina的專用界面比Gemini的聊天機器人更適合持續創作。
寬鬆的內容政策也允許Google不願涉足的應用場景。
在需要在多次迭代中保持真實主體身份一致的流程中——這是行銷活動的核心需求——Seedream在所有測試中表現更佳。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言