Der ultimative Leitfaden zur Datenermittlung

Erfahren Sie, wie Datenermittlung Unternehmen dabei hilft, fundierte Entscheidungen auf der Grundlage von Erkenntnissen aus gesammelten und analysierten Daten zu treffen.
13 min lesen
data discovery

Datenermittlung ist der Prozess des Sammelns von Daten aus verschiedenen Quellen, deren Aufbereitung und Analyse sowie der Gewinnung wertvoller Erkenntnisse. Das ultimative Ziel der Datenermittlung ist es, die Daten auf einer tieferen Ebene zu verstehen und sie für bessere Entscheidungen zu nutzen. Die aus dem Datenermittlungsprozess gewonnenen Erkenntnisse können Unternehmen bei der Betrugsaufdeckung, Geschäftsplanung, Abwanderungsprognose, Risikobewertung, Lead-Generierung und vielem mehr helfen.

In diesem Artikel erfahren Sie, was Datenermittlung ist, warum sie wichtig ist und was die gängigsten Schritte des Datenermittlungsprozesses sind.

Was ist Datenermittlung und warum ist sie wichtig?

Schätzungen zufolgewird die täglich generierte Datenmengeim Jahr 2025 181 Zettabyte erreichen. Solch große Datenmengen können unglaublich nützlich sein, jedoch benötigen Sie eine Möglichkeit, daraus umsetzbare Erkenntnisse zu gewinnen. Hier kommt die Datenermittlung ins Spiel. Durch die Kombination und Analyse von Daten aus verschiedenen Quellen können Unternehmen ihre Entscheidungsfindung und ihre Geschäftsstrategie verbessern.

Der Datenerkennungsprozess

Im Rahmen des Datenerkennungsprozesses werden in der Regel mehrere Schritte durchgeführt, darunter die Definition Ihres Ziels, die Datenerfassung, die Datenaufbereitung, die Datenvisualisierung, die Datenanalyse sowie die Interpretation und Umsetzung:

Data discovery process diagram, courtesy of Alen Kalac

Es ist wichtig zu beachten, dass die Datenermittlung ein hochgradig iterativer Prozess ist. Sie können von jedem Schritt des Prozesses zu einem vorherigen springen, wenn Sie feststellen, dass dies das Endergebnis verbessert.

1. Definieren Sie Ihr Ziel

Die Definition Ihrer Ziele sollte der erste Schritt im Datenerkundungsprozess sein, wird jedoch manchmal übersehen. Ihr Ziel bestimmt, welche Daten Sie benötigen. Sobald Sie wissen, was Sie erreichen möchten, haben Sie eine bessere Vorstellung davon, welche Daten Sie erfassen, wie Sie diese vorbereiten und analysieren und wie Sie daraus wertvolle Erkenntnisse gewinnen können.

2. Datenerfassung

Nachdem Sie Ihr Ziel definiert haben, müssen Sie die Datenquellen identifizieren, die Sie verwenden möchten, und die Daten sammeln. Dafür gibt es viele verschiedene Methoden. Beispielsweise verfügen die meisten Unternehmen bereits über eine Vielzahl nützlicher Daten, die oft als First-Party-Daten bezeichnet werden. Diese Daten können in Datenbanken, Data Lakes, Data Warehouses oder ähnlichen Systemen gespeichert sein. Bei internen Daten ist die Beschaffung der Daten unkompliziert, und im Allgemeinen sind First-Party-Daten vertrauenswürdig.

Allerdings reichen interne Daten oft nicht aus, um nützliche Datenerkenntnisse zu gewinnen. In der Regel müssen Sie auch Daten aus verschiedenen externen Quellen sammeln. Eine Möglichkeit ist die Verwendung von API, die viele Unternehmen und Organisationen zur Weitergabe ihrer Daten bereitstellen. Bekannte Beispiele sind die Google-API, die Instagram-API, die Zillow-API, die Reddit-API und die YouTube-API. Einige API sind kostenlos, viele sind jedoch kostenpflichtig. Bevor Sie andere Methoden der Datenerfassung in Betracht ziehen, sollten Sie prüfen, ob die Quelle eine API anbietet, da dies Ihren Prozess erheblich vereinfachen kann.

Die meisten Webdaten sind jedoch nicht über eine API verfügbar. In diesem Fall können Sie Daten dennoch mithilfe vonWeb-Scraping sammeln, wodurch Sie Daten von einer Webseite abrufen und in einem für die Datenanalyse besser geeigneten Format, z. B. CSV, speichern können.

Sie können Web-Scraping selbst durchführen, indem Sie benutzerdefinierte Skripte schreiben, die die benötigten Daten extrahieren. Dies erfordert jedoch Kenntnisse im Bereich Web-Scraping und kann zeitaufwändig sein. Außerdem müssen Sie sich mit den Anti-Scraping-Mechanismen der Websites auseinandersetzen. Eine Alternative ist die Verwendung von vorgefertigten Instant-Scrapern wie derBright Data Web Scraper API. Tools wie dieses sind relativ einfach zu bedienen, erfordern keine Programmierkenntnisse und können Anti-Scraping-Mechanismen sehr erfolgreich umgehen.

Wenn Sie nach einer noch einfacheren Lösung suchen, können Sie versuchen, fertige Datensätze zu finden, die zum Kauf angeboten werden. Solche Datensätze werden sorgfältig aus zuverlässigen Quellen gesammelt, analysiert, bereinigt und benutzerfreundlich strukturiert. Bright Data bietet beispielsweiseüber hundert gebrauchsfertige Datensätzeaus einigen der beliebtesten Datenquellen wie Amazon, Instagram, X (Twitter), LinkedIn und Walmart an. Außerdem können Sie mit einer automatisierten Plattformeinen benutzerdefinierten Datensatz erstellen.

In der Regel verwenden Sie eine Kombination aus diesen Datenquellen oder sogar einige, die nicht erwähnt sind (wie Echtzeitdaten, öffentliche Datensätze oder Umfragen). Das liegt daran, dass keine einzelne Datenquelle in der Regel alle Daten enthält, die Sie benötigen.

3. Datenaufbereitung

Sobald Sie Ihre Daten haben, besteht der nächste Schritt darin, sie für die Analyse vorzubereiten. In der Regel haben Daten, die aus verschiedenen Quellen stammen, nicht genau das Format, das Sie benötigen. Es liegt an Ihnen, das Format zu vereinheitlichen,die Daten zu analysieren, fehlende Werte zu behandeln, doppelte Daten zu entfernen, Ausreißer zu bearbeiten, kategoriale Daten zu verarbeiten, die Daten zu standardisieren oder zu normalisieren und alle anderen Probleme zu lösen, die Sie identifizieren.

Rohdaten weisen in der Regel bestimmte Mängel auf, wie z. B. fehlende Daten. In diesem Fall können Sie die Instanzen, in denen Daten fehlen, einfach verwerfen. Eine gängigere Methode ist jedoch die Imputation der fehlenden Werte (insbesondere in Fällen, in denen Sie nicht über viele Daten verfügen).

Es gibt verschiedene Methoden zur Imputation fehlender Werte, wie z. B. die Medianimputation, die Mittelwertimputation oder komplexere Methoden wie die multivariate Imputation durch verkettete Gleichungen (MICE). Ein weiteres potenzielles Problem bei numerischen Daten sind Variablen mit unterschiedlichen Bereichen. In diesem Fall kann es sinnvoll sein, die Daten zu normalisieren (die Daten auf einen Bereich zwischen 0 und 1 zu skalieren) oder zu standardisieren (die Daten auf einen Mittelwert von 0 und eine Standardabweichung von 1 zu skalieren). Die Wahl zwischen den beiden Methoden hängt von der statistischen Technik ab, die Sie während der Datenanalyse verwenden, sowie von der Verteilung Ihrer Daten.

Daten von geringer Qualität können zu Ergebnissen und Erkenntnissen von geringer Qualität führen. Das Ziel dieses Schritts ist es, die Rohdaten zu erfassen und saubere, qualitativ hochwertige Daten auszugeben, die für die Analyse bereit sind.

4. Datenvisualisierung

Sobald die Daten bereinigt sind, können Sie verschiedene Diagramme erstellen, die Ihnen bei der Untersuchung der Daten helfen. Die Datenvisualisierung ist hilfreich, da es manchmal einfacher ist, Erkenntnisse aus visualisierten Daten zu gewinnen als aus Daten in Tabellen. Es gibt unzählige Diagrammtypen, die alle unterschiedliche Aspekte der Daten darstellen können. Einige beliebte Diagrammtypen sind Balkendiagramme (gut zum Vergleichen von Werten), Liniendiagramme (gut zum Darstellen eines Trends über einen bestimmten Zeitraum), Kreisdiagramme (gut zum Darstellen der Struktur einer Kategorie), Boxplots (gut zum Zusammenfassen von Daten und Identifizieren von Ausreißern), Histogramme (gut zum Untersuchen der Datenverteilung) und Heatmaps (gut zum Analysieren von Korrelationen).

Viele Tools können Ihnen bei den zuvor genannten Datenvisualisierungstechniken helfen. Einige beliebte Tools sindPower BIundTableau. Diese Tools sind benutzerfreundlich, ideal für die Erstellung von Dashboards und Berichten und eignen sich hervorragend für die Zusammenarbeit und den Austausch.

Wenn Sie hochgradig angepasste Visualisierungen benötigen, sollten Sie sich vielleicht Python-Bibliotheken wieMatplotliboderseaborn zuwenden. Diese Bibliotheken erfordern Programmierkenntnisse und haben im Vergleich zu Power BI und Tableau eine viel steilere Lernkurve. Sie ermöglichen Ihnen jedoch die Verwendung spezifischer Visualisierungstypen und umfangreiche Anpassungen:

Power BI dashboard example, courtesy of Microsoft

Im Wesentlichen hilft Ihnen die Visualisierung von Daten dabei, die Daten, mit denen Sie arbeiten, besser zu verstehen, einschließlich der darin verborgenen Muster, der Beziehungen zwischen den Variablen und der Anomalien in den Daten.

5. Datenanalyse

Die Datenanalyse ist eng mit der Datenvisualisierung verbunden. Tatsächlich werden diese beiden Schritte oft gleichzeitig in einem umfassenden Prozess durchgeführt, der als explorative Datenanalyse bezeichnet wird.

Die Datenanalyse ermöglicht es Ihnen, die Daten weiter zu untersuchen, beschreibende und zusammenfassende Statistiken zu erstellen und all dies in umfassenden Berichten zusammenzufassen. Ähnlich wie bei der Datenvisualisierung ist das Ziel dieses Schritts, Trends, Muster, Beziehungen und Anomalien zu identifizieren.

Es gibt viele Techniken, um Erkenntnisse aus den Daten zu gewinnen. Die statistische Analyse ist eine beliebte Methode, bei der Daten in der Regel durch deskriptive Statistiken (gut für die Zusammenfassung von Datenmerkmalen) und inferentielle Statistiken (gut für Vorhersagen auf der Grundlage einer Stichprobe) analysiert werden. Maschinelles Lernen (ML) ist ebenfalls beliebt und nutzt überwachtes Lernen (arbeitet mit Klassifikationen und Regressionen auf der Grundlage von gekennzeichneten Daten), unüberwachtes Lernen (verwendet Techniken wie Clustering und Dimensionsreduktion bei nicht gekennzeichneten Daten) und bestärkendes Lernen (lernt durch Interaktionen mit der Umgebung). All dies können Sie mit Python-Bibliotheken wiepandas,NumPy undscikit-learn durchführen.

6. Interpretation und Maßnahmen

Nach der Datenanalyse ist es an der Zeit, alle identifizierten Muster zusammenzufassen und zu interpretieren. Auf der Grundlage der Datenanalyse und der Datenvisualisierung sollten wertvolle Erkenntnisse aus den Daten gewonnen werden. Diese Erkenntnisse sollten umsetzbar sein und zu einer besseren Entscheidungsfindung führen. Sie können diese Erkenntnisse gewinnen, indem Sie die für Ihre Geschäftsziele relevanten Muster identifizieren, verstehen, warum sie auftreten, sie priorisieren und weiterhin beobachten, wie sich die Muster entwickeln.

An dieser Stelle können Sie auf die definierten Ziele zurückblicken und prüfen, ob sie erreicht wurden. Ist dies nicht der Fall, können Sie zu einem der vorherigen Schritte zurückkehren und versuchen, diese zu verbessern. Dies kann bedeuten, dass Sie mehr Daten beschaffen, diese anders aufbereiten oder die Daten weiter analysieren und nach zusätzlichen Erkenntnissen suchen müssen.

Methoden zur Datenermittlung

Der Prozess der Datenermittlung kann entweder manuell oder automatisiert erfolgen. Beide Methoden haben ihre Vor- und Nachteile.

Manuelle Datenermittlung

Wie der Name schon sagt, bedeutet manuelle Datenermittlung, dass ein Mensch den Prozess der Datenermittlung durchführt. Das bedeutet, dass ein Mensch die Daten sammelt, die Formate vereinheitlicht, sie für die weitere Analyse aufbereitet und die Daten visualisiert und analysiert. Damit dies erfolgreich ist, sollte die Person, die die manuelle Datenermittlung durchführt, mit Datenanalyse-Tools und -Techniken, verschiedenen statistischen Methoden und Datenvisualisierungstools vertraut sein, über technische Fähigkeiten wie Programmieren verfügen und Fachkenntnisse in dem Bereich haben, in dem sie arbeitet.

Bei der manuellen Datenermittlung ist ein Mensch in der Lage, einige wertvolle Erkenntnisse aus den Daten zu gewinnen, die einer Maschine möglicherweise entgehen, wie z. B. bestimmte Beziehungen zwischen den Variablen, bestimmte Trends oder Gründe für Anomalien. Wenn es eine Anomalie in den Daten gibt, kann ein Mensch die Gründe dafür recherchieren, während eine Maschine in der Regel nur darüber berichtet. Die manuelle Durchführung des Datenermittlungsprozesses erfordert jedoch komplexe Fähigkeiten und ist viel langsamer als die automatisierte Datenermittlung.

Automatisierte Datenermittlung

Dank der enormen Fortschritte in den Bereichen künstliche Intelligenz (KI) und ML kann der Prozess der Datenermittlung weitgehend automatisiert werden. Bei der automatisierten Datenermittlung führt KI-Software viele der zuvor beschriebenen Schritte aus.

KI-Tools wie DataRobot, Alteryx und Altair RapidMiner können Daten automatisch aufbereiten, einschließlich der Vereinheitlichung der Formate, der Behandlung fehlender Werte sowie der Erkennung von Anomalien und Ausreißern. Solche Tools sind auch schneller als die manuelle Datenermittlung und erfordern bei weitem nicht so viel Fachwissen.

Beachten Sie jedoch, dass KI-Tools komplex und teuer sein können, in hohem Maße von der Qualität der Daten abhängen und oft gewartet werden müssen. Außerdem können die Ergebnisse von KI-Tools schwieriger zu interpretieren sein. All diese Faktoren sollten bei der Entscheidung zwischen automatisierter und manueller Datenermittlung berücksichtigt werden.

Datenklassifizierung

Ein mit der Datenermittlung verwandtes Konzept ist die Datenklassifizierung. Mithilfe der Datenklassifizierung können Daten anhand vordefinierter Kriterien und Regeln kategorisiert werden. Zu den gängigen Methoden zur Kategorisierung von Daten anhand dieser Kriterien gehören die Einteilung nach Datentyp (strukturiert, unstrukturiert, semistrukturiert), Sensitivitätsstufe (öffentlich, intern, vertraulich), Verwendungszweck (operativ, historisch, analytisch) und Datenquelle (extern und intern). Dies kann Unternehmen dabei helfen, die großen Mengen an Daten, die sie sammeln, zu verfolgen.

Für die Datenklassifizierung können verschiedene Techniken verwendet werden. Einfachere Methoden sind regelbasierte Klassifizierungen, bei denen Daten anhand bestimmter Schlüsselwörter oder Muster klassifiziert werden können. Eine ausgefeiltere Methode wäre die Verwendung einiger der gängigen ML-Algorithmen, wie neuronale Netze, Entscheidungsbäume oder lineare Modelle.

Sicherheit und Compliance

Sicherheit und die Einhaltung von Vorschriften wie derDatenschutz-Grundverordnung (DSGVO),dem California Consumer Privacy Act (CCPA) oderdem Health Insurance Portability and Accountability Act (HIPAA) sind für Unternehmen, die mit Daten umgehen, von entscheidender Bedeutung. Mit zunehmender Datenmenge in einem Unternehmen wird es jedoch immer schwieriger, Sicherheit und Compliance zu gewährleisten.

Die Datenerkennung kann dabei helfen, da sie Sicherheitsrisiken und Compliance-Lücken aufdecken kann. Durch die Datenerkennung können Unternehmen sensible Daten an unsicheren Orten identifizieren, Anomalien erkennen oder Daten aufspüren, die länger als nötig gespeichert sind. Einige Tools können bei der Datensicherheit helfen, beispielsweiseVaronis,Collibra undBigID.

Im vorigen Abschnitt wurde erwähnt, dass die Datenklassifizierung zur Einhaltung von Vorschriften beitragen kann. Dies kann erreicht werden, indem KI-Klassifizierungsmodelle trainiert werden, um Sicherheitsrisiken und nicht konforme Daten zu kennzeichnen. Bei den KI-Modellen kann es sich um überwachte Modelle wie neuronale Netze und Gradient Boosting Machines handeln, aber auch um unbeaufsichtigte Modelle wie Anomalieerkennung. Durch die Integration in bestehende Sicherheitsframeworks kann KI die Erkennung von Bedrohungen, die Reaktionsfähigkeiten und die Sicherheitslage verbessern. KI kann auch dabei helfen, große Datenmengen zu analysieren und Muster zu erkennen, die einem Menschen entgehen könnten; sie kann potenzielle Schwachstellen vorhersagen und ungewöhnliches Verhalten erkennen.

Tools für die Datenermittlung

Es gibt zahlreiche Tools, die bei der Datenermittlung helfen. Mit solchen Tools können sogar Personen ohne Programmiererfahrung den Datenermittlungsprozess durchführen. Diese Tools können bei der automatisierten Datenaufbereitung, -analyse oder -visualisierung helfen. Datenermittlungstools können jedoch auch den Prozess der Datenerfassung erheblich verbessern, vor allem durch die Automatisierung des Web-Scraping.

Mit derBright Data Web Scraper APIkönnen Sie beispielsweise beliebte Websites scrapen. Sie ist einfach zu bedienen, hochgradig skalierbar und verfügt über alle Funktionen, die man von einem Instant-Web-Scraper erwartet. Wenn Sie lieber einen vorgefertigten Datensatz erhalten möchten, können Sie einen derüber hundert Datensätzeauswählen, die Bright Data zur Verfügung stellt.

Die Wahl der Datenquelle hängt von der Verfügbarkeit der Daten sowie von Ihren Bedürfnissen und Präferenzen ab. Wenn Sie einen vorgefertigten Datensatz finden, der die benötigten Daten enthält, ist es schneller, diesen Datensatz zu beziehen, als die Daten selbst zu sammeln. Wenn keine Datensätze verfügbar sind, können Sie prüfen, ob die Daten über eine API verfügbar sind, da dies in der Regel schneller ist als das Scraping der Daten. Wenn jedoch keine API vorhanden ist, müssen Sie die Daten wahrscheinlich selbst scrapen, entweder manuell oder mit einem automatisierten Web-Scraper.

Fazit

In diesem Artikel haben Sie gelernt, wie wichtig die Datenermittlung ist und wie Sie dabei vorgehen sollten. Außerdem haben Sie einige Methoden zur Datenermittlung und einige Tools kennengelernt, die Sie dafür verwenden können.

Bright Databietet mehrere Lösungen für die Datenermittlung, darunterProxy-Dienste, die Web-Scraper-API und Datensätze. Diese Tools können Ihnen bei der Datenerfassung im Rahmen der Datenermittlung erheblich helfen. Probieren Sie Bright Data noch heute kostenlos aus!