Das Verständnis von schlechten Daten: Arten, Ursachen, Auswirkungen und Prävention

Erfahren Sie, was schlechte Daten sind, ihre Arten und Ursachen, und wie Sie sie verhindern können, um Datenqualität und -zuverlässigkeit zu gewährleisten.
10 min read
Bad Data Definition & Examples blog image

Einfach ausgedrückt bezieht sich schlechte Daten auf unvollständige, ungenaue, inkonsistente, irrelevante oder doppelte Daten, die aus verschiedenen Gründen in Ihre Dateninfrastruktur eindringen.

Am Ende dieses Artikels werden Sie verstehen:

  • Was schlechte Daten sind
  • Verschiedene Arten von schlechten Daten
  • Was schlechte Daten verursacht
  • Die Konsequenzen und Präventivmaßnahmen

Schauen wir uns das genauer an:

Verschiedene Arten von schlechten Daten

Datenqualität und Zuverlässigkeit sind in fast jedem Bereich, von der Geschäftsanalyse bis zum Training von KI-Modellen, von wesentlicher Bedeutung. Schlechte Datenqualität manifestiert sich in verschiedenen Formen, die jeweils einzigartige Herausforderungen für die Nutzbarkeit und Integrität der Daten darstellen.

Diagramm der schlechten Datentypen

Unvollständige Daten

Unvollständige Daten beziehen sich auf ein Datensatz, dem ein oder mehrere Attribute, Felder oder Einträge fehlen, die für eine genaue Analyse erforderlich sind. Diese fehlenden Informationen machen den gesamten Datensatz unzuverlässig und manchmal sogar unbrauchbar.

Häufige Ursachen für unvollständige Daten sind absichtliche Auslassungen bestimmter Daten, nicht aufgezeichnete Transaktionen, teilweise Datenerfassung, Fehler bei der Dateneingabe, nicht sichtbare technische Probleme während der Datenübertragung usw.

Betrachten Sie beispielsweise eine Situation, in der bei einer Kundenbefragung die Kontaktdaten fehlen. Das macht es unmöglich, später mit den Befragten in Kontakt zu treten, wie unten gezeigt.

Beispiel für fehlende Kontaktdaten

Ein weiteres Beispiel kann eine Krankenhausdatenbank sein, in der medizinische Aufzeichnungen von Patienten wichtige Informationen wie Allergien und frühere medizinische Vorgeschichten fehlen, was zu lebensbedrohlichen Situationen führen kann.

Doppelte Daten

Doppelte Daten entstehen, wenn derselbe oder nahezu identische Datensatz mehrfach in der Datenbank erfasst wird. Diese Redundanz führt zu irreführenden Analysen und falschen Schlussfolgerungen und kann manchmal Zusammenführungsoperationen und Systemstörungen komplizieren. Die aus einem Datensatz mit doppelten Daten abgeleiteten Statistiken werden unzuverlässig und ineffizient für die Entscheidungsfindung.

Beispiele:

  • Eine Kundenbeziehungsmanagement (CRM)-Datenbank mit mehreren Datensätzen für denselben Kunden kann die nach der Analyse abgeleiteten Informationen verzerren, z. B. die Anzahl der eindeutigen Kunden oder den Umsatz pro Kunde.
  • Ein Bestandsverwaltungssystem, das dasselbe Produkt unter verschiedenen SKU-Nummern speichert, macht Bestandsabschätzungen ungenau.

Ungenaue Daten

Das Vorhandensein von falschen, fehlerhaften Informationen in einem oder mehreren Datensätzen wird als ungenaue Daten bezeichnet.

Ein einfacher Fehler in einem Code oder einer Zahl aufgrund eines Tippfehlers oder eines unbeabsichtigten Versehens kann schwerwiegende Komplikationen und Verluste verursachen, insbesondere wenn die Daten für Entscheidungsfindungen in einem hochriskanten Bereich verwendet werden. Das Vorhandensein ungenauer Daten verringert die Vertrauenswürdigkeit und Zuverlässigkeit des gesamten Datensatzes.

Beispiele:

  • Eine Versanddatenbank, die falsche Versandadressen für Lieferungen speichert, könnte Pakete an die falschen Orte, sogar in die falschen Länder senden, was zu großen Verlusten und Verzögerungen sowohl für das Unternehmen als auch für den Kunden führt.
  • Situationen, in denen ein Human Resource Management System (HRMS) falsche Informationen über Mitarbeitergehälter enthält, können Gehaltsdifferenzen und potenzielle rechtliche Probleme verursachen.

Inkonsistente Daten

Inkonsistente Daten, die auftreten, wenn verschiedene Personen oder Teams unterschiedliche Einheiten oder Formate für denselben Datentyp innerhalb einer Organisation verwenden, sind eine häufige Ursache für Verwirrung und Ineffizienz, die Sie bei der Arbeit mit Daten antreffen können. Sie unterbrechen die Einheitlichkeit und den kontinuierlichen Datenfluss und führen zu fehlerhaften Datenverarbeitungen.

Beispiele:

  • Inkonsistente Datumsformate in mehreren Datensätzen (MM/DD/YYYY vs. DD/MM/YYYY), z. B. in einem Bankensystem, können Konflikte und Probleme bei der Datenaggregation und -analyse verursachen.
    Beispiel für inkonsistente Datumsformate
  • Zwei Filialen derselben Einzelhandelskette, die Bestandsdaten in unterschiedlichen Maßeinheiten (Anzahl der Kisten vs. Anzahl der Einzelstücke) eingeben, können bei der Nachbestellung und Verteilung Verwirrung stiften.

Veraltete Daten

Einfach ausgedrückt sind veraltete Daten Datensätze, die nicht mehr aktuell, relevant und anwendbar sind. Besonders in schnelllebigen Bereichen sind veraltete Daten weit verbreitet, da kontinuierlich schnelle Veränderungen auftreten. Daten, die ein Jahrzehnt, ein Jahr oder sogar einen Monat alt sind, können je nach Kontext nicht mehr nützlich oder sogar irreführend sein.

Beispiele:

  • Eine Person kann im Laufe der Zeit neue Allergien entwickeln. Ein Krankenhaus, das einem Patienten Medikamente verschreibt, dessen Aufzeichnungen veraltete Allergieinformationen enthalten, kann die Sicherheit des Patienten gefährden.
  • Eine Immobilienagentur, die Immobilien aus einer veralteten Datenquelle auflistet, kann Zeit und Mühe mit bereits verkauften oder nicht mehr verfügbaren Immobilien verschwenden. Dies ist unproduktiv und kann den Ruf des Unternehmens schädigen.

Darüber hinaus können auch nicht konforme, irrelevante, unstrukturierte und voreingenommene Daten die Datenqualität in Ihrem Datenökosystem beeinträchtigen. Das Verständnis jeder dieser verschiedenen schlechten Datentypen ist entscheidend, um ihre Ursachen und die Bedrohungen, die sie für Ihr Unternehmen darstellen, zu erkennen und Strategien zur Minderung der Auswirkungen zu entwickeln.

Was verursacht schlechte Daten?

Jetzt, da Sie ein klares Verständnis der verschiedenen Arten von schlechten Daten haben, ist es wichtig zu verstehen, was sie verursacht, damit Sie proaktive Maßnahmen ergreifen können, um solche Vorkommnisse in Ihren Datensätzen zu verhindern.

Einige Ursachen für schlechte Daten sind:

  • Menschliche Fehler bei der Dateneingabe: Es versteht sich von selbst, dass dies die häufigste Ursache für schlechte Daten ist, insbesondere wenn es um unvollständige, ungenaue und doppelte Daten geht. Unzureichende Schulung, mangelnde Aufmerksamkeit für Details, Missverständnisse über den Dateneingabeprozess und überwiegend unbeabsichtigte Fehler wie Tippfehler können letztendlich zu unzuverlässigen Datensätzen und großen Komplikationen bei der Analyse führen.
  • Schlechte Dateneingabeverfahren und -standards: Ein solides Standardsystem ist der Schlüssel zum Aufbau solider und gut strukturierter Verfahren. Wenn Sie beispielsweise Freitexteingaben für ein Feld wie das Land zulassen, kann ein Benutzer unterschiedliche Namen für dasselbe Land eingeben (Beispiel: USA, Vereinigte Staaten, U.S.A.), was zu einer ineffizient breiten Vielfalt von Antworten für denselben Wert führt. Solche Inkonsistenzen und Verwirrung entstehen durch das Fehlen ordnungsgemäß festgelegter Standards.
  • Migrationsprobleme: Schlechte Daten sind nicht immer das Ergebnis manueller Eingaben. Sie können auch durch die Migration von Daten von einer Datenbank zu einer anderen entstehen. Solche Probleme verursachen eine Fehlanpassung von Datensätzen und Feldern, Datenverluste und sogar Datenkorruption, die lange Stunden der Überprüfung und Behebung erfordern können.
  • Datenverschlechterung: Jede kleine Änderung, von Kundenpräferenzen bis hin zu einem Wechsel der Markttrends, kann die Unternehmensdaten aktualisieren. Wenn die Datenbank nicht ständig aktualisiert wird, um diesen Änderungen zu entsprechen, wird sie zu veralteten Daten, was zu Datenverfall oder Datenverschlechterung führt. Veraltete Daten haben keinen wirklichen Nutzen bei der Entscheidungsfindung und Analyse und tragen zu irreführenden Informationen bei, wenn sie verwendet werden.
  • Zusammenführen von Daten aus mehreren Quellen: Das ineffiziente Kombinieren von Daten aus mehreren Quellen oder fehlerhafte Datenintegration kann zu ungenauen und inkonsistenten Daten führen. Dies geschieht, wenn die verschiedenen zusammengeführten Datenquellen in unterschiedlichen Standards, Formaten und Qualitätsstufen formatiert sind.

Auswirkungen schlechter Daten

Wenn Sie Datensätze verarbeiten, die schlechte Daten enthalten, setzen Sie Ihre Endanalyse einem Risiko aus. Tatsächlich können schlechte Daten langfristige und verheerende Auswirkungen haben, insbesondere auf datengesteuerte Unternehmen und Bereiche, wie zum Beispiel:

  • Schlechte Datenqualität kann Ihrem Unternehmen schaden, indem das Risiko erhöht wird, schlechte Entscheidungen und Investitionen auf der Grundlage irreführender Informationen zu treffen.
  • Schlechte Daten verursachen erhebliche finanzielle Kosten, einschließlich verschwendeter Ressourcen und entgangener Einnahmen. Die Wiederherstellung der durch schlechte Daten verursachten Schäden kann viel Geld und Zeit in Anspruch nehmen.
  • Die Ansammlung schlechter Daten kann sogar zum Scheitern des Unternehmens führen, da sie den Bedarf an Nacharbeit erhöht, zu verpassten Chancen führt und die Produktivität insgesamt negativ beeinflusst.
  • Infolgedessen sinkt die Vertrauenswürdigkeit und Zuverlässigkeit des Unternehmens erheblich, was die Kundenzufriedenheit und -bindung beeinträchtigt. Ungenaue und unvollständige Daten vom Unternehmen führen zu schlechtem Kundenservice und inkonsistenter Kommunikation.

Darüber hinaus können schlechte Daten zu kritischen Fehlern führen, die sich in rechtliche oder lebensbedrohliche Komplikationen beschleunigen, insbesondere in den Bereichen Finanzen und Gesundheitswesen.

Beispielsweise erlebte Public Health England (PHE) im Jahr 2020 während der COVID-19-Pandemie einen erheblichen Datenverwaltungsfehler, der dazu führte, dass 15.841 COVID-19-Fälle aufgrund schlechter Daten nicht gemeldet wurden. Das Problem wurde auf die veraltete Version der von PHE verwendeten Excel-Tabellen zurückgeführt, die nur bis zu 65.000 Zeilen speichern konnte, anstatt der tatsächlich möglichen mehr als einer Million Zeilen. Einige der von Drittunternehmen analysierten Abstrichproben wurden verloren, was zu unvollständigen Daten führte. Die Anzahl der durch diesen technischen Fehler verpassten engen Kontakte mit Infektionsrisiko betrug etwa 50.000.

Darüber hinaus führte der Tippfehler von Samsung im Jahr 2018 dazu, dass die Aktienkurse innerhalb eines einzigen Tages um rund 11 % fielen, wodurch nahezu 300 Millionen Dollar Marktwert vernichtet wurden. Der Fehler wurde von einem Mitarbeiter von Samsung Securities verursacht, der versehentlich 2,8 Milliarden „Aktien“ (im Wert von 105 Milliarden Dollar) anstelle von 2,8 Milliarden „Südkoreanischen Won“ eingab, die an die Mitarbeiter verteilt werden sollten, die am Aktienbesitzplan des Unternehmens teilnahmen.

Daher sollten die Konsequenzen schlechter Daten nicht auf die leichte Schulter genommen werden, und es müssen geeignete Präventivmaßnahmen ergriffen werden, um das Risiko zu beseitigen.

Verhinderung schlechter Daten

Kein Datensatz ist perfekt. Ihre Daten werden zwangsläufig Fehler aufweisen. Der erste Schritt zur Verhinderung schlechter Daten besteht darin, diese Realität anzuerkennen, damit Sie die notwendigen präventiven Strategien zur Sicherstellung der Datenqualität umsetzen können.

Einige Schritte zur Verhinderung schlechter Daten umfassen:

  1. Die Implementierung einer soliden Datenverwaltung ist ein entscheidender Schritt zur Schaffung von Verantwortlichkeit und Standards in der gesamten Organisation. Sie kann Ihnen dabei helfen, klare Richtlinien und Verfahren für das Management, den Zugriff und die Pflege von Daten zu erstellen, um das Risiko schlechter Daten zu minimieren.
  2. Führen Sie regelmäßige Datenprüfungen durch, um Inkonsistenzen und veraltete Daten zu finden, bevor Komplikationen auftreten.
  3. Regulieren Sie die Dateneingabeprozesse, indem Sie Standards, Datenvalidierungsregeln und Standardformate und -vorlagen in der gesamten Organisation festlegen, um menschliche Fehler zu minimieren.
  4. Gut informierte Mitarbeiter neigen dazu, während der Datenverarbeitung und -verwaltung minimale Fehler zu machen. Daher sind regelmäßige Schulungen und Aktualisierungssitzungen erforderlich, um die Mitarbeiter über die Standardverfahren auf dem Laufenden zu halten.
  5. Sichern Sie regelmäßig Daten, um Datenverluste bei unvorhergesehenen Ereignissen zu verhindern.
  6. Verwenden Sie fortschrittliche Tools, die speziell für die Datenvalidierung entwickelt wurden, um die Konsistenz und Integrität Ihrer Daten zu gewährleisten. Sie können die Genauigkeit und Vollständigkeit Ihrer Daten bestätigen und potenzielle Fehler erkennen und korrigieren.

Abschluss

In diesem Artikel wurde untersucht, was schlechte Daten sind, welche verschiedenen Arten von schlechten Daten Sie möglicherweise antreffen und was ihre Ursachen sind. Darüber hinaus wurden die erheblichen negativen Auswirkungen schlechter Daten auf eine datengesteuerte Organisation hervorgehoben, von finanziellen Verlusten bis hin zum Scheitern des Unternehmens. Das Verständnis dieser Faktoren ist der erste Schritt zur Verhinderung schlechter Daten.

Obwohl es mehrere präventive Strategien zur Sicherstellung der Datenqualität gibt, wird die Verwendung eines zuverlässigen Tools, das speziell für diesen Zweck entwickelt wurde, die Belastung von Ihren Schultern nehmen.

Erwägen Sie die Verwendung von Datenerfassungstools, mit denen Sie automatisch zuverlässige und saubere Datensätze erstellen können. Dies nimmt Ihnen die Mühe ab und hinterlässt Ihnen saubere und direkt verwendbare Daten. Ein solches Tool, das dies ermöglicht, ist die Web Scraper API von Bright Data. Möchten Sie sich nicht mit dem Scraping auseinandersetzen? Registrieren Sie sich jetzt und laden Sie unsere kostenlosen Datensatzproben herunter!