Diffusion Model

TLDR: Ein Diffusion Model generiert realistische Daten, indem es lernt, einen Rauschhinzufügungsprozess umzukehren. Stable Diffusion und DALL-E sind die bekanntesten Beispiele.

Ein Diffusion Model ist eine Klasse von generativen KI-Modellen. Es lernt, Daten zu erstellen, indem es einen kontrollierten Zerstörungsprozess umkehrt. Während des Trainings sieht das Modell ein Bild in jeder Phase einer ‘Forward Diffusion’: Gaußsches Rauschen wird schrittweise hinzugefügt, bis das Bild reines Rauschen ist. Das Modell lernt die Umkehrung — wie jeder Schritt entrauscht wird. Bei der Inferenz beginnt es mit zufälligem Rauschen und entrauscht Schritt für Schritt, um ein neues Bild zu erzeugen.

Wie Diffusion Models funktionieren

Forward Process: Gaußsches Rauschen wird einem Trainingsbeispiel über T Zeitschritte hinzugefügt. Bis zum Zeitschritt T sind die Daten von zufälligem Rauschen nicht mehr zu unterscheiden.
Reverse Process: Ein neuronales Netz — typischerweise U-Net oder ein Transformer — lernt, das Rauschen bei jedem Schritt vorherzusagen und zu entfernen.
Trainingsziel: Das Netz minimiert die Differenz zwischen dem vorhergesagten Rauschen und dem tatsächlich hinzugefügten Rauschen bei jedem Zeitschritt.
Sampling: Ausgehend von reinem Gaußschen Rauschen entrauscht das Modell über T Reverse-Schritte, um ein neues, realistisches Sample zu erzeugen.

Konditionierung und Textkontrolle

Diffusion Models können auf Text-Prompts, Klassenbezeichnungen oder Bilder konditioniert werden. Text-zu-Bild-Modelle verwenden einen Text-Encoder (z. B. CLIP), um den Entrauschungsprozess zu steuern. Cross-Attention-Schichten injizieren das Textsignal bei jedem Entrauschungsschritt. Dies ermöglicht präzise Kontrolle: Das Modell erzeugt genau das, was der Prompt beschreibt. Die Qualität der Text-Prompts ist enorm wichtig — siehe Prompt Engineering.

Bekannte Diffusion Models

Stable Diffusion: Open-Source-Text-zu-Bild-Modell. Weit verbreitet für Kunstgenerierung und die Erstellung synthetischer Datensätze.
DALL-E 3: OpenAIs Text-zu-Bild-Modell. Hervorragend bei der Prompt-Einhaltung und Fotorealismus.
Imagen: Googles Diffusion Model, das ein LLM für die Textkodierung verwendet.
Sora: OpenAIs Text-zu-Video-Modell. Erzeugt realistische Videoclips aus Text-Prompts.
AudioLDM: Generiert Audio und Musik aus Textbeschreibungen.

Diffusion Models und Trainingsdaten

Diffusion Models werden auch verwendet, um synthetische Trainingsdaten für andere KI-Systeme zu generieren. Im Bereich Computer Vision füllen synthetische Bilder Lücken, wo echte beschriftete Daten knapp sind. Das Training von Diffusion Models erfordert Milliarden von Bild-Text-Paaren in großem Maßstab. Bright Datas Datensätze liefern umfangreiche, kuratierte Trainingsdaten für den Aufbau und die Feinabstimmung generativer Modelle.

Gratis testen Starte mit Google