- Automatisiertes Session-Management
- Wählen Sie eine beliebige Stadt in 195 Ländern
- Unbegrenzte Anzahl gleichzeitiger Sessions
Diffusion Model
TLDR: Ein Diffusion Model generiert realistische Daten, indem es lernt, einen Rauschhinzufügungsprozess umzukehren. Stable Diffusion und DALL-E sind die bekanntesten Beispiele.
Ein Diffusion Model ist eine Klasse von generativen KI-Modellen. Es lernt, Daten zu erstellen, indem es einen kontrollierten Zerstörungsprozess umkehrt. Während des Trainings sieht das Modell ein Bild in jeder Phase einer ‘Forward Diffusion’: Gaußsches Rauschen wird schrittweise hinzugefügt, bis das Bild reines Rauschen ist. Das Modell lernt die Umkehrung — wie jeder Schritt entrauscht wird. Bei der Inferenz beginnt es mit zufälligem Rauschen und entrauscht Schritt für Schritt, um ein neues Bild zu erzeugen.
Wie Diffusion Models funktionieren
- Forward Process: Gaußsches Rauschen wird einem Trainingsbeispiel über T Zeitschritte hinzugefügt. Bis zum Zeitschritt T sind die Daten von zufälligem Rauschen nicht mehr zu unterscheiden.
- Reverse Process: Ein neuronales Netz — typischerweise U-Net oder ein Transformer — lernt, das Rauschen bei jedem Schritt vorherzusagen und zu entfernen.
- Trainingsziel: Das Netz minimiert die Differenz zwischen dem vorhergesagten Rauschen und dem tatsächlich hinzugefügten Rauschen bei jedem Zeitschritt.
- Sampling: Ausgehend von reinem Gaußschen Rauschen entrauscht das Modell über T Reverse-Schritte, um ein neues, realistisches Sample zu erzeugen.
Konditionierung und Textkontrolle
Diffusion Models können auf Text-Prompts, Klassenbezeichnungen oder Bilder konditioniert werden. Text-zu-Bild-Modelle verwenden einen Text-Encoder (z. B. CLIP), um den Entrauschungsprozess zu steuern. Cross-Attention-Schichten injizieren das Textsignal bei jedem Entrauschungsschritt. Dies ermöglicht präzise Kontrolle: Das Modell erzeugt genau das, was der Prompt beschreibt. Die Qualität der Text-Prompts ist enorm wichtig — siehe Prompt Engineering.
Bekannte Diffusion Models
- Stable Diffusion: Open-Source-Text-zu-Bild-Modell. Weit verbreitet für Kunstgenerierung und die Erstellung synthetischer Datensätze.
- DALL-E 3: OpenAIs Text-zu-Bild-Modell. Hervorragend bei der Prompt-Einhaltung und Fotorealismus.
- Imagen: Googles Diffusion Model, das ein LLM für die Textkodierung verwendet.
- Sora: OpenAIs Text-zu-Video-Modell. Erzeugt realistische Videoclips aus Text-Prompts.
- AudioLDM: Generiert Audio und Musik aus Textbeschreibungen.
Diffusion Models und Trainingsdaten
Diffusion Models werden auch verwendet, um synthetische Trainingsdaten für andere KI-Systeme zu generieren. Im Bereich Computer Vision füllen synthetische Bilder Lücken, wo echte beschriftete Daten knapp sind. Das Training von Diffusion Models erfordert Milliarden von Bild-Text-Paaren in großem Maßstab. Bright Datas Datensätze liefern umfangreiche, kuratierte Trainingsdaten für den Aufbau und die Feinabstimmung generativer Modelle.