Vor einigen Wochen haben wir Extract from Image veröffentlicht — laden Sie ein Modefoto hoch und die KI füllt ein vollständiges Preset für Sie aus. Das hat den größten Teil der Reibung bei der Preset-Erstellung beseitigt, und es ist seitdem eines unserer meistgenutzten Features.

Doch Marken stellten uns immer wieder eine andere Frage: Was ist mit einem Set? Eine Kampagne ist nicht ein Shot, sondern sechs. Eine Produktseite ist nicht ein Preset, sondern ein kohärentes Paket aus Front, Rück, Dreiviertel und Detail. Wenn Sie Extract from Image sechsmal hintereinander aufrufen, erhalten Sie sechs Presets, doch jedes wurde isoliert generiert — also driften die Worte. Dieselbe warme Cyclorama wird in einem Preset „weiches beige Cyclorama" und im nächsten „cremiger nahtloser Hintergrund" genannt. Dasselbe Fensterlicht-Setup ist einmal „weich gerichtet von links der Kamera" und ein zweites Mal „diffuses Seitenlicht". Für die KI, die das nächste Bild generiert, sind das unterschiedliche Beleuchtungs-Setups. Ihre Kampagne fällt auseinander.

Heute liefern wir den Fix: Extract from a Set of Images.

Eine ganze Kategorie auf einmal extrahieren

Der neue Flow lebt auf dem dedizierten Categories-Screen (Sie finden ihn unter Presets → Categories in der Seitenleiste). Klicken Sie auf die prominente Extract from images-Karte, wählen Sie 2–6 Referenzbilder, die zur selben Kampagne gehören sollen, und die KI erledigt den Rest. Was Sie zurückbekommen, ist keine Liste unverbundener Presets: Es ist eine vollständig geformte Kategorie — N Presets, die alle dieselbe Formulierung für die Dinge teilen, die visuell übereinstimmen, und sich nur dort unterscheiden, wo sich die Bilder tatsächlich unterscheiden.

Die Kategorie wird atomar erstellt und gespeichert. Credits werden mit 1 pro Bild berechnet (ein Set mit 4 Bildern kostet also 4 Credits) und die neue Kategorie wird automatisch mit einem Zeitstempel benannt, den Sie später umbenennen können. Ihr Thumbnail wird sogar aus Ihrer ersten Referenz vorausgefüllt, sodass Sie sie sofort im Raster erkennen.

So funktioniert es

Schritt 1 — Den Categories-Screen öffnen

Navigieren Sie in der App zu Presets → Categories. Der Screen wird von einer einzelnen Hero-Karte angeführt: „Extract a category from images." Klicken Sie auf Get started.

Categories screen on On-Model with the Extract from images hero card front and center — Der Categories-Screen — Extract from images ist der primäre CTA

Schritt 2 — 2 bis 6 Referenzen auswählen

Die Asset-Auswahl öffnet sich im Mehrfachauswahl-Modus. Wählen Sie aus Ihrer Bibliothek, laden Sie einen frischen Stapel hoch (die Drop-Zone akzeptiert mehrere Dateien gleichzeitig, per Drag & Drop oder Klick) oder mischen Sie beides. Ausgewählte Kacheln erhalten ein nummeriertes blaues Badge, sodass Sie immer die Reihenfolge kennen, und ein Footer-Zähler zeigt „N / 6 selected" mit dem Extract category-Button, der aktiv ist, sobald Sie mindestens zwei ausgewählt haben.

Multi-select asset picker on On-Model with several reference images selected and the Extract category footer button visible — Die Auswahl erlaubt das Mischen von Bibliothek und Upload — Extract category leuchtet bei 2 Auswahlen auf

Schritt 3 — Ein Durchgang, eine kohärente Kategorie

Klicken Sie auf Extract category und warten Sie. Die KI analysiert Ihre Referenzen als kohärentes Set und extrahiert die Presets gemeinsam statt einzeln — das ist es, was sie konsistent hält. Wenige Sekunden später landen Sie auf der neuen Kategorie mit N bereits gespeicherten Presets und können sofort beginnen, sie auf Ihre Produkte anzuwenden.

Da die KI Ihre Referenzen als Set verarbeitet und nicht unabhängig voneinander, kann sie erkennen, welche Eigenschaften kampagnenübergreifend geteilt werden und welche pro Bild variieren — und die geteilten auf identische Formulierungen festlegen. Das schaltet die Konsistenz frei, die Sie unten sehen werden.

Die Konsistenz-Story

Das ist der entscheidende Teil. Wenn Sie die Single-Image-Extraktion dreimal aufrufen, erhalten Sie drei Presets, die driften. Wenn Sie Extract from a Set mit denselben drei Bildern aufrufen, erhalten Sie drei Presets, die byte-identische Formulierungen in jedem Feld teilen, in dem die Bilder visuell übereinstimmen. Wir meinen das wörtlich — die Strings sind gleich, Zeichen für Zeichen.

So sieht das mit den drei Referenzen aus, die wir für diesen Beitrag getestet haben:

Reference image 1 — first shot in a coherent campaign — Referenz 1

Reference image 2 — second shot, same scene — Referenz 2

Reference image 3 — third shot, same scene — Referenz 3

Nach der Extraktion kollabierten die shared traits zu einer einzigen kanonischen Formulierung über alle drei Presets hinweg. Hintergrund, Stil, Stimmung und Farbpalette lesen sich identisch — und ebenso Beleuchtung und die meisten Kameraeinstellungen. Hier sind die byte-identischen Strings, die das Modell für das gesamte Set gewählt hat:

shared-across-all-3-presets.json

{
  "background": "Seamless light gray cyclorama with a soft shadow falloff at the floor, creating a clean e-commerce look.",
  "style": "Clean e-commerce studio photography emphasizing the drape and fit of the garment against a neutral backdrop.",
  "mood": "Neutral, professional, and focused on presenting the product clearly without distraction.",
  "color_palette": "Monochromatic scene palette featuring light gray and white tones from the studio background and lighting.",
  "lighting": {
    "direction": "Key light positioned slightly above and straight on, with gentle side fills to minimize harsh shadows.",
    "quality": "Soft, diffused lighting creating smooth gradients and natural-looking highlights on the fabric.",
    "complexity": "Standard studio setup with a primary softbox key light and ambient fill for even, shadowless illumination."
  },
  "camera": {
    "lens": "Standard portrait lens around 50-85mm, providing natural proportions and gentle compression.",
    "angle": "Shot straight on at roughly chest height, maintaining a flat, proportional perspective.",
    "aperture": "Moderate aperture around f/5.6-8 to keep the entire garment in sharp focus."
  }
}

Nur die Felder, in denen sich die Referenzen tatsächlich unterschieden, erhielten Beschreibungen pro Bild — Pose, Bildausschnitt und Ausdruck:

varying-per-preset.json

{
  "preset_1_full_body": {
    "pose": "Model standing facing forward, legs slightly apart, arms resting naturally at sides, creating a straight and relaxed posture.",
    "camera": { "framing": "Full-body shot, cropped just below the neck and just below the toes, keeping the garment centered in frame." },
    "expression": "Facial expression is not fully visible due to cropping, but head is positioned straight and level."
  },
  "preset_2_mid_shot": {
    "pose": "Model standing slightly angled, hands clasped gently together near the waist, showing the sleeve details.",
    "camera": { "framing": "Three-quarter length shot, cropped just below the knees and at the top of the head." },
    "expression": "Neutral expression with eyes looking slightly downward, conveying a relaxed and understated confidence."
  },
  "preset_3_detail": {
    "pose": "Model facing slightly away from the camera, arms folded and raised near the chest, showcasing the fabric texture and sleeve construction.",
    "camera": { "framing": "Close-up detail shot of the upper torso and arms, cropped at the neck and mid-skirt." },
    "expression": "Facial expression is completely cropped out, focusing entirely on the upper body and hands."
  }
}

Das ist keine Nachbearbeitung. Die KI bewertet die Referenzen gemeinsam als Set, wählt byte-identische Formulierungen, wo sie visuell übereinstimmen, und schreibt nur dort eine Formulierung pro Bild, wo sie es nicht tun. Wenden Sie eines dieser drei Presets auf ein anderes Produkt an, und Sie erhalten eine Ausgabe, die zum selben Shoot gehört.

Outfit-unabhängig per Design

Es gibt eine zweite Änderung, die erwähnenswert ist, denn sie ist der Unterschied zwischen einem Preset, das auf jedem Produkt funktioniert, das Sie besitzen, und einem, das nur auf dem Produkt funktioniert, aus dem es extrahiert wurde.

Presets beschreiben den fotografischen Kontext — Pose-Form, Szene, Beleuchtung, Kamera, Stimmung, Stil, Umgebungsfarbe der Szene. Sie benennen niemals spezifische Kleidungsstücke, Stoffe oder Outfit-Farben. Extrahieren Sie eine Kategorie aus einem Denim-Lookbook und Sie werden „blue denim" nicht in der color_palette sehen. Sie sehen die Szenen-Palette: den Cyclorama-Ton, den Licht-Cast, das Ambiente. Wenden Sie diese Kategorie auf ein Satin-Slipdress an und das Kleid wirkt authentisch.

Eine aus einem Jeans-und-T-Shirt-Lookbook extrahierte Kategorie kann auf einem Kleider-Shoot, einem Strick-Shoot oder einem beliebigen anderen Produkt wiederverwendet werden. Das Preset beschreibt, wie das Foto aufgenommen wird, nicht, was das Modell trägt.

In Aktion — von Referenzen zu generierten Ausgaben

Hier ist das gleiche Set an Referenzen, angewendet als Kategorie. Wir haben die drei extrahierten Presets genommen, sie mit einem KI-Modell und einem Flat-Lay-Produkt kombiniert und pro Preset eine Generierung durchgeführt:

Der Flat-Lay-Input — ein Wickelkleid, bewusst ein völlig anderes Kleidungsstück als das schwarze Satin-Midikleid in den Referenzen:

Wrap dress flat-lay — the input product — Input — Wickelkleid

Alle drei Presets der Kategorie, nacheinander auf dasselbe Produkt angewendet:

AI Generated

Aisha wearing the wrap dress in a full-body studio e-commerce shot — same light gray cyclorama and soft directional lighting as the references — Full Body

Aisha wearing the wrap dress in a three-quarter mid-shot — same scene and lighting, hands clasped near the waist showing the dress drape — Mid Shot

Aisha wearing the wrap dress in a detail close-up — same scene and lighting, focused on the upper torso — Detail

Das Produkt ist brandneu. Das Modell ist brandneu. Doch die drei Ausgaben gehören zum selben Shoot — und zum selben Shoot wie die Referenzen. Dasselbe hellgraue Cyclorama. Dieselbe weiche gerichtete Beleuchtung. Dieselbe neutrale monochromatische Palette. Dieselbe frontale Kamera. Nur Pose, Bildausschnitt und Ausdruck ändern sich — genau so, wie die Referenzen variieren, und genau so, wie eine echte PDP-Trio es tun würde.

Das ist eine vollständige Produktdetailseite in drei Klicks: Laden Sie das Full Body-Preset für den Hero, laden Sie Mid Shot für den Lifestyle-Slot, laden Sie Detail für die Nahaufnahme. Wechseln Sie zur nächsten SKU und verwenden Sie die ganze Kategorie wieder — die visuelle Welt bleibt erhalten.

Wenn Sie die Kategorie speichern, benennt die KI auch jedes Preset für Sie (hier: Studio E-Commerce Full Body, Mid Shot, Detail). Diese Namen werden aus dem ausgewählt, was über die Referenzen hinweg variiert — sie sind der Hinweis, mit dem Sie später das richtige Preset für jeden Shot-Typ laden.

Eine Kategorie ist ein starker Ausgangspunkt. Die Presets tragen Szene, Beleuchtung, Stimmung, Farbpalette, Kamera und Pose-Form — alles, was die Fotos zusammengehören lässt. Sie versuchen nicht, jedes letzte Styling-Detail der Originale festzuhalten (Requisiten, Accessoires, Mikro-Styling-Hinweise), und das sollten sie auch nicht: Der ganze Sinn ist, dass Sie die Kategorie auf völlig neue Produkte wiederverwenden können. Wenn Sie möchten, dass eine einzelne Ausgabe eine spezifische Referenz noch genauer kopiert, können Sie dieses Referenzbild auch als zweiten Input neben Ihrem Flat-Lay einspeisen — siehe den Trick im Single-Image-Extraktions-Beitrag.

Einzelnes Bild vs. ein Set — wann was verwenden

Beide Flows haben ihre Berechtigung. Hier die praktische Aufschlüsselung:

	Extract from one image	Extract from a set
Ausgabe	1 Preset	1 Kategorie, N Presets
Am besten geeignet für	Einzel-Shots, Ad-hoc Stiltransfer	Kampagnen, Lookbooks, Multi-Shot-Produktseiten
Konsistenz	Nur pro Bild	Byte-identische Formulierung bei geteilten Eigenschaften
Kosten	1 Credit	1 Credit pro Bild (N insgesamt)
Wiederverwendung auf anderen Produkten	Ja, outfit-unabhängig	Ja, outfit-unabhängig
Wo zu finden	Presets → New Preset → From Image	Presets → Categories → Extract from images

Wenn Sie nur einen Shot brauchen, ist der Single-Image-Flow schneller und günstiger. Sobald Sie mehr als einen Shot in derselben visuellen Welt brauchen, wechseln Sie.

Anwendungsfälle

Einen Kampagnen-Brief aus einem Moodboard erstellen. Ziehen Sie das saisonale Moodboard Ihres Teams in die Auswahl und Sie haben eine Kategorie, die den Brief in maschinell anwendbarer Form erfasst.
Ein Konkurrenz-Lookbook konvertieren. Sie haben ein kohärentes Set an Shots auf einer Markenseite gesehen, die Sie bewundern? Sechs Klicks und Sie haben ein wiederverwendbares Preset-Pack für Ihre eigenen Produkte.
Eine Multi-Shot-PDP standardisieren. Front, Rück, Dreiviertel, Detail — extrahieren Sie aus einem einzigen vergangenen Shoot, den Sie mochten, und wenden Sie ihn künftig auf jede neue SKU an.
Einen neuen Mitarbeiter einarbeiten. Geben Sie ihm eine Kategorie statt einer 12-seitigen Marken-Style-PDF. Die Presets sind der Brief.

„Visuelle Konsistenz ist der größte Treiber von Markenvertrauen im E-Commerce. Die Shoots, die bei der Conversion gewinnen, sind nicht die teuersten — es sind die, bei denen jedes Bild eindeutig in dieselbe Welt gehört."

— Senior Creative Director eines europäischen Modehauses, im Gespräch

Laut McKinsey geben Modemarken 500–1.000 USD pro SKU für traditionelle Produktfotografie aus, und die Kosten potenzieren sich, wenn jede neue Kampagne einen frischen Shoot erfordert, um den Katalog kohärent zu halten. Shopifys Forschung zeigt, dass 75 % der Online-Käufer sich beim Kauf auf Produktfotos verlassen, und das Baymard Institute stellt fest, dass Katalog-Bilder, deren visueller Stil messbar driftet, die Absprungraten auf Kategorienseiten erhöhen. Das Extrahieren einer ganzen Kategorie aus Referenzen in einem einzigen Durchgang ist, wie Marken die Coherent-Shoot-Erfahrung skalieren, ohne das Produktionsbudget zu skalieren.

Jetzt ausprobieren

Gehen Sie zu Presets → Categories und klicken Sie auf Extract from images. Wählen Sie eine Handvoll Referenzen aus einem Shoot, den Sie bereits mögen, und Sie haben in Sekunden eine wiederverwendbare Kategorie.

Brauchen Sie nur ein Preset? Der Single-Image-Flow ist immer noch da — siehe Create AI Presets from Any Fashion Photo.

Quellen:

McKinsey & Company. (2024). The State of Fashion: Technology Edition. mckinsey.com
Shopify. (2025). Product Photography Statistics: Why Visuals Drive E-Commerce Sales. shopify.com
Baymard Institute. (2025). Product Image UX: How Image Consistency Impacts Conversion. baymard.com

KI-Preset-Kategorien aus Referenzfotos