Diffusion Model

TLDR: Ein Diffusion Model generiert realistische Daten, indem es lernt, einen Rauschhinzufügungsprozess umzukehren. Stable Diffusion und DALL-E sind die bekanntesten Beispiele.

Ein Diffusion Model ist eine Klasse von generativen KI-Modellen. Es lernt, Daten zu erstellen, indem es einen kontrollierten Zerstörungsprozess umkehrt. Während des Trainings sieht das Modell ein Bild in jeder Phase einer ‘Forward Diffusion’: Gaußsches Rauschen wird schrittweise hinzugefügt, bis das Bild reines Rauschen ist. Das Modell lernt die Umkehrung — wie jeder Schritt entrauscht wird. Bei der Inferenz beginnt es mit zufälligem Rauschen und entrauscht Schritt für Schritt, um ein neues Bild zu erzeugen.

Wie Diffusion Models funktionieren

  1. Forward Process: Gaußsches Rauschen wird einem Trainingsbeispiel über T Zeitschritte hinzugefügt. Bis zum Zeitschritt T sind die Daten von zufälligem Rauschen nicht mehr zu unterscheiden.
  2. Reverse Process: Ein neuronales Netz — typischerweise U-Net oder ein Transformer — lernt, das Rauschen bei jedem Schritt vorherzusagen und zu entfernen.
  3. Trainingsziel: Das Netz minimiert die Differenz zwischen dem vorhergesagten Rauschen und dem tatsächlich hinzugefügten Rauschen bei jedem Zeitschritt.
  4. Sampling: Ausgehend von reinem Gaußschen Rauschen entrauscht das Modell über T Reverse-Schritte, um ein neues, realistisches Sample zu erzeugen.

Konditionierung und Textkontrolle

Diffusion Models können auf Text-Prompts, Klassenbezeichnungen oder Bilder konditioniert werden. Text-zu-Bild-Modelle verwenden einen Text-Encoder (z. B. CLIP), um den Entrauschungsprozess zu steuern. Cross-Attention-Schichten injizieren das Textsignal bei jedem Entrauschungsschritt. Dies ermöglicht präzise Kontrolle: Das Modell erzeugt genau das, was der Prompt beschreibt. Die Qualität der Text-Prompts ist enorm wichtig — siehe Prompt Engineering.

Bekannte Diffusion Models

  1. Stable Diffusion: Open-Source-Text-zu-Bild-Modell. Weit verbreitet für Kunstgenerierung und die Erstellung synthetischer Datensätze.
  2. DALL-E 3: OpenAIs Text-zu-Bild-Modell. Hervorragend bei der Prompt-Einhaltung und Fotorealismus.
  3. Imagen: Googles Diffusion Model, das ein LLM für die Textkodierung verwendet.
  4. Sora: OpenAIs Text-zu-Video-Modell. Erzeugt realistische Videoclips aus Text-Prompts.
  5. AudioLDM: Generiert Audio und Musik aus Textbeschreibungen.

Diffusion Models und Trainingsdaten

Diffusion Models werden auch verwendet, um synthetische Trainingsdaten für andere KI-Systeme zu generieren. Im Bereich Computer Vision füllen synthetische Bilder Lücken, wo echte beschriftete Daten knapp sind. Das Training von Diffusion Models erfordert Milliarden von Bild-Text-Paaren in großem Maßstab. Bright Datas Datensätze liefern umfangreiche, kuratierte Trainingsdaten für den Aufbau und die Feinabstimmung generativer Modelle.

Mehr als 20,000+ Kunden weltweit schenken uns ihr Vertrauen

Bereit loszulegen?