Grundwahrheit

TLDR: Grundwahrheit ist das verifizierte Label oder die Antwort, die ein Machine-Learning-Modell lernt vorherzusagen. Ihre Qualität bestimmt direkt, wie genau das Modell sein wird.

In Machine Learning bezeichnet Grundwahrheit die korrekten, verifizierten Labels, die Trainingsdaten zugeordnet sind. Ein Grundwahrheits-Label teilt dem Modell mit, was die richtige Antwort für eine bestimmte Eingabe ist. Bei einer Bildklassifizierungsaufgabe könnte die Grundwahrheit das Label ‘Katze’ sein. Bei der Objekterkennung ist es der Begrenzungsrahmen und die Klasse jedes Objekts in einer Szene. Der Begriff stammt aus der Fernerkundung – Feldmessungen, die Luft- oder Satellitendaten bestätigen.

Grundwahrheit im Supervised Learning

Supervised Learning erfordert beschriftete Daten. Jedes Trainingsbeispiel ist mit einer Grundwahrheits-Ausgabe gepaart. Das Modell lernt, den Unterschied zwischen seinen Vorhersagen und der Grundwahrheit zu minimieren. Dieser Unterschied wird durch eine Verlustfunktion gemessen. Die Qualität der Grundwahrheits-Labels ist der wichtigste Faktor für die Modellleistung. Fehlerhafte oder inkonsistente Labels machen Modelle unzuverlässig.

Wie Grundwahrheit erstellt wird

Manuelle Annotation: Annotatoren beschriften Bilder, Texte, Audio- oder Sensordaten von Hand.
Expertenprüfung: Fachspezialisten verifizieren Labels – besonders bei medizinischen oder rechtlichen Aufgaben.
Automatisches Labeling: Vorhandene strukturierte Daten oder Metadaten liefern Labels automatisch.
Crowdsourcing: Plattformen wie Mechanical Turk verteilen Annotationsaufgaben in großem Maßstab.
Synthetische Generierung: Synthetische Daten-Pipelines generieren Daten mit perfekt integrierten Labels.

Grundwahrheit vs. Modellvorhersagen

Während des Trainings sieht das Modell die Test-Grundwahrheit nie. Evaluierungsmetriken vergleichen Modellvorhersagen mit zurückgehaltener Grundwahrheit. Gängige Metriken umfassen Genauigkeit, Präzision, Recall, F1-Score und mittlere durchschnittliche Präzision (mAP). Ein Modell, das bei der Trainings-Grundwahrheit gut, bei Testdaten jedoch schlecht abschneidet, überanpasst sich.

Grundwahrheit in Computer Vision und Robotik

Objekterkennung: Grundwahrheits-Begrenzungsrahmen beschriften jedes Objekt in Trainingsbildern.
3D-Kartierung: LiDAR-erfasste Punktwolken liefern räumliche Grundwahrheit für das Szenenverständnis.
Autonomes Fahren: Grundwahrheitskarten zeigen Spurpositionen und Hindernisstandorte.
NLP: Von Menschen verfasste Antworten dienen als Grundwahrheit für Frage-Antwort-Modelle.

Datenqualität und Grundwahrheit in großem Maßstab

Großangelegte KI-Projekte benötigen Millionen genau beschrifteter Beispiele. Inkonsistente Annotationsrichtlinien erzeugen Label-Rauschen. Label-Rauschen verschlechtert die Modellgenauigkeit proportional zu seiner Schwere. Die Datensätze von Bright Data bieten hochwertige, strukturierte Trainingsdaten, die aus realen Quellen gesammelt wurden.

Gratis testen Starte mit Google