無需文字!Google推出最新AI工具Whisk 靠圖像生成圖像

Google推出最新AI工具Whisk,用戶僅需針對描述主題、場景與風格上傳圖像即可生成新的AI圖像。(圖擷取自社群平台「X」)
祝蘭蕙/核稿編輯
〔即時新聞/綜合報導〕Google於17日宣布推出最新人工智慧工具Whisk,這款創新工具讓用戶僅需上傳圖像即可生成新的AI圖像。目前Whisk僅開放美國用戶測試,並在Google Labs平台上運行。
綜合外媒報導,Whisk結合了Google最新推出的核心AI系統Gemini,以及DeepMind的文本轉圖像生成模型Imagen 3。當用戶上傳圖像後,Gemini會先生成一段簡短的描述,並將其輸入到Imagen 3中,最終生成一張全新的AI圖像。
用戶可以上傳多張圖像,分別描述主題、場景與風格,Whisk將自動融合這些要素,生成一張全新影像。此外,用戶若無合適的圖片作為指令,也可點擊骰子圖示,使用 Whisk自動生成的隨機圖像作為參考基礎,甚至還可加入文字補充,以更精確地調整結果。
Google強調,Whisk旨在捕捉圖像的「精隨」,而非精準複製原圖內容,因此生成結果可能會偏離原始指令,例如人物的高度、髮型或膚色可能與提供的素材不同。
Google Labs產品管理主任表示,「Whisk的目的在於讓用戶以全新且有創意的方式混搭主題、場景與風格,進行快速的視覺探索,而不是進行像素級的精細編輯。」
用戶還可對生成的圖像進行「重混」操作,透過調整輸入圖片或增加文字,生成新版本的圖像。例如,用戶可以設計卡通形象、周邊商品如貼紙或徽章等,輕鬆探索不同風格與主題的可能性。
目前,Whisk尚處於早期開發階段,僅對美國地區的測試用戶開放,並計劃未來進一步拓展應用範圍。Google 同時警告,由於工具仍在優化過程中,生成的圖像可能「偏離用戶預期」。
Whisk, from Google
— William Lamkin (@WilliamLamkin) December 16, 2024
A new image model experiment arrived in the lab (@labsdotgoogle) allowing users to use images as prompts https://t.co/xwncV7hNpi pic.twitter.com/XQ0MKetYA5
忽然发现可以用 Google 最新的 Whisk 做出这种巨物玩法!! pic.twitter.com/CyPaZM3xCY
— Ring Hyacinth (@ring_hyacinth) December 17, 2024
谷歌出的Whisk还挺好玩,背后基于的是Gemini根据图片生成描述,然后再用Imagen 3生成图片,可以把主体、场景、风格整合到一张图片中。不具备保持角色一致的能力,只是能识别主体是什么。
— Gorden Sun (@Gorden_Sun) December 17, 2024
使用地址:https://t.co/9SSVWlGzUQ pic.twitter.com/rCehAu7spj
Been exploring Whisk today: https://t.co/JCzR4OlSuJ
— Eric Curts (@ericcurts) December 17, 2024
✨ Google's new AI image tool
???? Upload or describe the subject, scene & style
???? I mixed a bear, a diner & comic book art
???? Refine with additional prompts as needed
????️ Download & use the new images#edtech #AIEDU pic.twitter.com/3iIrqijHFw