Apple 發布了 Pico-Banana-400K,這是一個包含 400,000 張圖像的研究數據集,有趣的是,它是使用 Google Gemini-2.5 模型創建的。以下是詳細信息。
蘋果研究團隊發表了一項有趣的研究,題為“Pico-Banana-400K:大規模文本驅動圖像編輯數據集”。
除了這項研究之外,他們還發布了包含 400,000 張圖像的完整數據集,該數據集是為非商業研究而創建和許可的。這意味著任何人都可以使用它並研究它,只要它用於人工智能領域的學術工作或研究目的。換句話說,它不能用於商業目的。
確實如此,但它是什麼?
幾個月前,谷歌發布了 Gemini-2.5-Flash-Image,也稱為 Nanon-Banana,在圖像編輯模型方面可以說是最先進的。
其他型號也顯示出顯著的改進,但正如蘋果研究人員所說:
“儘管取得了這些進步,但開放研究仍然受到缺乏大規模、高質量和完全可共享的編輯數據集的限制。現有數據集通常依賴於專有模型或有限的人工子集的合成生成。此外,這些數據集通常表現出領域轉移、編輯類型分佈不平衡以及質量控制不一致,這阻礙了穩健編輯模型的開發。”
因此蘋果決定對此採取一些措施。
構建 Pico-Banana-400K
蘋果做的第一件事就是從 OpenImages 數據集中提取了數量不詳的真實照片,“選擇這些照片是為了確保覆蓋人物、物體和文本場景。”

然後,他編制了一份用戶可以要求對模型進行的 35 種不同類型更改的列表,分為八類。例如:
- 像素和光度測量: 添加一些膠片顆粒或複古濾鏡。
- 以人為本: Funko-Pop 風格的人像。
- 場景構圖和多主體: 天氣條件的變化(晴/雨/雪)
- 對象級語義: 移動對象(改變其位置/空間關係)
- 規模: 放大
然後研究人員將圖像與其中一條線索一起加載到 Nano-Banana 中。一旦 Nano-Banana 完成編輯圖像的創建,研究人員將要求 Gemini-2.5-Pro 審查結果,根據是否符合說明和視覺質量,批准或拒絕它。

結果是 Pico-Banana-400K,其中包括使用單遍編輯(一個提示)、多遍編輯序列(多個迭代提示)以及比較成功和不成功結果的偏好對創建的圖像(以便模型還可以了解不良結果是什麼樣子)。

認識到 Nano-Banana 在細粒度空間編輯、佈局外推和版式方面的局限性,研究人員希望 Pico-Banana-400K 能夠成為“訓練和基準測試下一代文本驅動圖像編輯模型的堅實基礎”。
您可以在以下位置找到該研究: arXiv該數據集可免費獲得 GitHub。
亞馬遜上的配飾優惠












