Semantische Segmentierung

TLDR: Semantische Segmentierung beschriftet jeden Pixel in einem Bild mit einer Klassenkategorie. Sie gibt Maschinen ein detailliertes, pixelgenaues Verständnis einer Szene.

Semantische Segmentierung ist eine Aufgabe im Bereich Computer Vision. Sie klassifiziert jeden Pixel in einem Bild in eine vordefinierte Kategorie – zum Beispiel: Straße, Auto, Fußgänger, Himmel oder Gebäude. Im Gegensatz zur Objekterkennung, die Begrenzungsrahmen zeichnet, erzeugt die semantische Segmentierung eine exakte Pixelmaske pro Klasse. Sie gibt dem Modell ein detailliertes Verständnis von Objektform und -position. Diese Präzision ist entscheidend für autonomes Fahren und medizinische Bildgebung.

Arten der Segmentierung

Semantische Segmentierung: Alle Pixel derselben Klasse teilen ein Label. Zwei Autos werden beide als ‘Auto’ gekennzeichnet – keine Unterscheidung zwischen einzelnen Instanzen.
Instanzsegmentierung: Unterscheidet einzelne Objekte derselben Klasse. Jedes Auto erhält eine eindeutige ID und Maske.
Panoptische Segmentierung: Kombiniert beides – alle Pixel nach Klasse beschriftet, mit eindeutigen Instanz-IDs für zählbare Objekte wie Autos und Personen.

Wichtige Modellarchitekturen

Fully Convolutional Network (FCN): Das erste End-to-End-Modell für semantische Segmentierung. Ersetzt dichte Schichten durch konvolutionale für pixelweise Ausgabe.
U-Net: Encoder-Decoder mit Skip-Verbindungen. Standardarchitektur für die Segmentierung medizinischer Bilder.
DeepLab v3+: Verwendet atrous Faltungen und ASPP zur Erfassung von Kontext auf mehreren Skalen. Stand der Technik bei Benchmark-Datensätzen.
Segment Anything Model (SAM): Metas Foundation-Modell für Zero-Shot-Segmentierung über beliebige Objektkategorien.

Anwendungen

Autonome Fahrzeuge: Segmentierung von Straße, Fahrbahnmarkierungen, Fahrzeugen und Fußgängern in Echtzeit. Kombiniert mit LiDAR–Punktwolken für 3D-Szenenverständnis.
Medizinische Bildgebung: Segmentierung von Tumoren, Organen und Gewebe in MRT-, CT- und Pathologie-Scans.
Satellitenbilder: Kartierung der Landnutzung, Erkennung von Entwaldung und Überwachung von Infrastruktur aus Luftbildern.
Robotik: Segmentierung von Arbeitsoberflächen zur Steuerung von Robotermanipulation und sicherer Navigation.
Augmented Reality: Trennung von Vorder- und Hintergrund für Szenenüberlagerungen und Effekte.

Trainingsdaten für Segmentierungsmodelle

Semantische Segmentierung erfordert dicht annotierte Bilder. Jeder Pixel muss ein Label tragen – eine der arbeitsintensivsten Formen der Datenbeschriftung. Eine einzelne Fahrszene kann 90 Minuten dauern, um sie pixelgenau zu annotieren. Synthetische Daten aus Simulationen liefern kostenlose pixelgenaue Ground-Truth-Daten und senken die Annotationskosten erheblich. Die Datensätze von Bright Data bieten umfangreiche Bildsammlungen zum Aufbau von Trainingsdatensätzen für die Segmentierung in großem Maßstab.

Gratis testen Starte mit Google