前一陣子,大模型競技場 LMArena 里面悄咪咪地出現了一個神秘的圖片模型 —— nano-banana,在一眾生圖模型里面亂殺。
這個小香蕉無名無姓,可一旦在 LMArena 抽到它,對手必被吊打。
這個神秘的模型在生圖一致性上強得驚人,對提示詞的理解和完成度也好得可怕。大伙兒你一票我一票,迅速把它送上了榜單第一位。
就在眾人紛紛猜測新模型到底出身哪個高門大戶的時候,谷歌 AI Studio 的產品 Leader 跳出來發了一個香蕉,暗戳戳地認領了 nano-banana。
而就在昨天,nano-banana 終于正式上線谷歌 AI Studio,直接去 Gemini 那里就能玩,不用競技場費事抽卡了。
谷歌在官方博客里是這么秀肌肉的:開局一張臉,以后不管是啥場景,啥服裝,啥表情,都能讓人一眼看出來你還是你。
把幾張照片搓在一起,生成的結果既能保證原來的形象不崩,又能保證新圖片看起來不違和。
還能多輪對話改同一張圖,每次只改一點點,其它部分就像是媽生原圖一樣,絲毫不變。
官方的案例看起來是挺吊的,還沒玩上的差友也別急,咱這就帶大伙兒一起體驗一下。
為了感受一下其它模型和 nano-banana 的差距,我們先上 LMArena 去抽了幾波卡。
結果是,一共抽了十幾輪,只要謎底里有 banana,你一定會盲選 banana。。。有些對比還是非常慘烈的。
像是讓人物手里加一根香蕉,右邊 seededit 的手崩了,香蕉的顏色也過于鮮艷,和整體畫風不搭,但左邊基本挑不出啥毛病。
再比如讓魯迅不要抽煙改拿筆,右邊這個細節變了一堆不說,筆頭還冒著煙呢。
這么看來,nano-banana 比現在的生圖模型都強是沒啥疑問的。但它具體強在哪些方面呢?我們又去谷歌 Studio 有針對性地測了測。
先說結論,我們覺得 nano-banana 最強的點,是它對圖片有了更深入的理解,保證了一致性。而在強一致性的基礎上,修圖、換風格、做 3D 手辦。。。它非常全面,啥都干得挺好。
比如這種一鍵試穿,需要把平鋪的各種服飾 P 到人的身上,而 nano-banana 對細節的把控非常到位。
鞋本來提供的是側面圖,但它畫出了正面的樣子。服飾上各種 logo 拼的都是對的,甚至 T 恤上原本鏡像的 ‘SAINT LAURENT’,在生圖的過程中也變回來了。
我們還試了試人臉的不同角度生成,這個效果是真的很厲害。
下面這三張圖,只有第一張是真實照片,后面兩張都是生成的。
這種面部方向的調整在老模型里是很難實現的,因為要通過一張平面圖理解一張立體的臉各個角度長啥樣很難,但 nano-banana 的完成度也非常高。
另外,我們還測了一些合照拉郎配。
可以看得出,在這種合照里,它做的不只是把兩個人物拼在一起,而是學習到了面部特征。這樣生成的新圖片即使表情不太樣,還是能讓人一眼看出這是小馬小札。
還有大伙兒最愛的 3D 手辦系列,分分鐘把 100 多斤的火鍋壓縮成茶杯犬,化身桌面可愛小擺件,火鍋群里的同事們紛紛求出貨。
最牛的還屬這一張 —— 火鍋前陣子右后腿皮膚病剃禿了一塊,而生成的圖片居然注意到了這一點,一致性真拉滿了。
不過有一說一,nano-banana 的圖像風格變換比較中規中矩,倒是沒啥特別的。
但在這個過程中,我們發現它不光在處理圖片,還在偷偷 “ 認人 ”。
像是下面這張圖,在我們沒有告訴誰是誰的情況下,它還是認出來左邊是搞火箭的馬斯克,右邊是 META 的扎克伯格。
我們又試了幾個地標開盒,看看它有沒有 GPT 那樣的推理能力。
但實際上它只在地標建筑物上比較好使,更像是圖像識別 記憶檢索,只能說有一點推理能力,但不多。
左 nano-banana 答錯,右 GPT 5 Thinking 答對
除了上述的優點,它的缺點其實也不少。。。最大的問題就是,谷歌好像給它做了不少安全性調教,經常這也不行,那也不行,有時候真摸不清哪個關鍵詞又觸犯天條了。
其次是對提示詞要求比較高,往好了說,是 nano-banana 對提示詞的遵循能力強,但實際上對用戶來講,得多花不少時間打磨提示詞,有點折磨。
谷歌自己也表示,別讓 Gemini 猜你的心思,有啥想要的盡管說出來。
所以要是出來的效果不好,寫提示詞的時候就得盡量詳細一些,什么要動,什么不要動通通列明白,才能保證強一致性。
最后,比起咱心目中的 P 圖白月光 FLUX,它在局部小范圍修圖上效果還是差了一點,所以還是建議大伙兒精修找 FLUX,上面各種整大活兒再用 nano-banana。
左原圖,中 nano-banana,右 FLUX
總的來說,nano-banana 強就強在它對圖片的理解能力是目前最好的,而且各種任務上的一致性都不錯,沒有大短板。
更大的好消息是,小香蕉已經被整合進了 2.5 Flash 版本,即使沒有 pro 會員,免費的賬戶也可以使用。
只要左上角選擇 2.5 Flash,對話框 tools 選擇 Image 即可。
LMAreana 上也依然可用,只要 prompt 開頭輸入 “ 使用 nano-banana 模型生成 ” ,有極高概率可以抽到。
或者有些整合網站像是 LibLib,Fal-ai 等等也有第三方提供的 nano-banana。
感興趣的差友趕緊去試試吧,歡迎回來評論區返圖哦。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。