In diesem Artikel werden wir folgende Themen behandeln:
- Welche Datensätze können bei der Erfassung problematisch sein?
- Die besten Methoden, um sicherzustellen, dass Ihre Datenerfassung den Best Practices entspricht
Welche Website-Daten können bei der Erfassung problematisch sein?
Sie sollten Folgendes nicht erfassen:
- Passwortgeschützte Daten
- Urheberrechtlich geschützte Informationen
- Personenbezogene Daten (PII), z. B. Name, E-Mail-Adresse, Geburtsdatum, Telefonnummer, Rechnungsdaten usw.
Die Erfassung dieser Art von Daten kann erhebliche rechtliche/finanzielle Auswirkungen für Ihr Unternehmen haben. Grund dafür sind die Datenschutz-Grundverordnung (DSGVO) und der California Consumer Privacy Act (CCPA), die vorsehen, dass Unternehmen bei Nichteinhaltung mit Geldstrafen belegt werden können.
**Der Inhalt dieses Beitrags stellt keine Rechtsberatung dar. Bevor Sie Änderungen oder Entscheidungen treffen, die sich auf die Art und Weise der Datenerfassung oder die Art der erfassten Daten auswirken, sollten Sie einen Rechtsbeistand konsultieren.**
Die besten Möglichkeiten, um sicherzustellen, dass Ihre Datenerfassung korrekt durchgeführt wird
Nr. 1: Führen Sie eine gezielte Datenerfassung durch
Anstatt einfach nur riesige Datenmengen oder ganze Websites zu sammeln, die möglicherweise private Daten enthalten, sollten Sie genau festlegen, welche Daten für die Projekte, für die Sie sie sammeln, unerlässlich sind, und nur diese Daten erfassen. Anstatt beispielsweise ganze Social-Media-Profile zu sammeln, sollten Sie nur Beiträge/Kommentare zu Ihrem Produkt oder Ihrer Branche erfassen, um die Stimmung Ihrer Zielgruppe einzuschätzen.
Nr. 2: Sammeln Sie nur öffentlich zugängliche Daten
Die Datenerfassung kann schwierig sein. Viele Open-Source-Datenpunkte sind aufgrund der komplexen Architektur der Zielwebsite technisch schwierig zu erfassen, aber diese Daten sind öffentlich und ihr Crawling ist völlig legal. Wenn die Daten jedoch passwortgeschützt sind oder gesetzlich als PII definiert sind, d. h. als Hinweis auf die persönliche Identität einer Person, sollten sie vermieden werden. Stellen Sie sicher, dass Sie über Richtlinien und Verfahren zur Datenerfassung verfügen, die gewährleisten, dass die Erfasser nur Open-Source-Daten überwachen.
Nr. 3: Überprüfen Sie die Robots.txt-Dateien der Zielwebsite
Diese Dateien sind auf jeder Website vorhanden und legen im Wesentlichen fest, was Robots/Spiders/Crawler auf der Website tun dürfen und was nicht. Es handelt sich um ein Stammverzeichnis, das durch Hinzufügen von „/robots.txt” am Ende jeder öffentlichen Domain gefunden werden kann. Überprüfen Sie diese Dateien und stellen Sie sicher, dass Ihre Webcrawler diese Richtlinien beim Crawlen der Zielwebsites befolgen.
Nr. 4: Verwenden Sie ein ausgeklügeltes Datenerfassungstool
Mit Tools wie der Web Scraper API von Bright Data können Sie genau festlegen, welche Datenfelder erfasst werden sollen, wodurch personenbezogene Daten sowie andere unerwünschte Datensätze vermieden werden.
Bright Data legt größten Wert darauf, private Daten privat zu halten. Aus diesem Grund haben wir ein Tool eingeführt, mit dem Sie erfahren können, ob Ihre öffentlich zugänglichen Daten von den Datenerfassungsplattformen von Bright Data erfasst wurden. Sie können dann die Löschung dieser Informationen beantragen, was Teil unserer Verpflichtung zu vollständiger Transparenz und Einhaltung der gesetzlichen Bestimmungen ist.
Fazit
Für den langfristigen Wert Ihres Unternehmens ist es äußerst wichtig, dass Sie nur Datensätze sammeln, die zu 100 % ethisch und gesetzeskonform sind. Vermeiden Sie Risiken, indem Sie noch heute einen oder alle der oben genannten Vorschläge umsetzen. Möchten Sie mehr über die Produkte erfahren? Registrieren Sie sich jetzt und starten Sie Ihre kostenlose Proxy-Testversion oder laden Sie kostenlose Datensatz-Beispiele herunter!