Bright Data Brightbot Crawler
Was ist Brightbot?
Brightbot ist der Crawler von Bright Data zur Datenerfassung. Er dient als Hauptpipeline für die Datenerfassung für alle Produkte und Dienstleistungen von Bright Data. Er verfügt über eine integrierte Cache-Ebene, die das wiederholte Herunterladen derselben Daten innerhalb eines Zeitraums von 24 Stunden verhindert, es sei denn, es liegt ein besonderer geschäftlicher Grund für eine Ausnahme vor. Er nutzt umfangreiche technologische Maßnahmen, um eine faire Nutzung der verfügbaren Website-Ressourcen zu gewährleisten und Missbrauch zu verhindern. Die Aktivitäten von Brightbot sind vollständig transparent, da es seinen eigenen einzigartigen User-Agent und sein eigenes Quell-IP-Subnetz verwendet. Sein Traffic und seine Aktivitäten können daher vollständig vom Traffic der Benutzer getrennt, verfolgt und sogar mithilfe der Webmaster-Konsole und collectors.txt von Bright Data gesteuert werden.
Wie kann Brightbot-Traffic identifiziert werden?
Brightbot lässt sich anhand von zwei Parametern leicht identifizieren:
- User-Agent: „Brightbot 1.0”
- Quell-IP-Subnetz 82.97.199.0/24
Die Verwendung beider Parameter gewährleistet eine genaue Identifizierung.
Warum sollten Websites Brightbot auf die Whitelist setzen?
- Filtern Sie den Traffic aus der Nutzungsanalyse und den Daten der Empfehlungsmaschine heraus.
- 99,99 % Schutz vor Missbrauch – Sobald Brightbot von der Website auf die Whitelist gesetzt wurde, ist Bright Data bereit, alle Kunden zu zwingen, nur noch über Brightbot zu arbeiten, auch auf die Gefahr hin, einige von ihnen zu verlieren, um 100 % Kontrolle über den Traffic zu erlangen.
- Reduzieren Sie Wiederholungsversuche und doppelte Ressourcenanfragen.
- Trennen Sie den Datenverkehr und begrenzen Sie die Ressourcen, die ihn verarbeiten.
- Verschaffen Sie sich Transparenz darüber, was andere auf Ihrer Website ansehen – Statistiken und Dashboards werden bereitgestellt.
- Treffen Sie fundiertere Entscheidungen darüber, was (wenn überhaupt) hinter einer Anmeldung statt öffentlicher Daten angezeigt werden soll.
Was ist die Webmaster-Konsole?
Die Webmaster-Konsole ist Bright Datas Kommunikationsmittel mit Website-Betreibern. Sie ermöglicht es Website-Betreibern, ihre Domain-Inhaberschaft innerhalb der Konsole zu registrieren und Transparenz und Kontrolle über den Traffic zu erlangen, der auf diese Domains abzielt.
Die Authentifizierung erfolgt ganz einfach durch Hinzufügen eines generierten Tokens zum DNS-Eintrag der Domain.

Auf der Statistikseite jeder Domain kann der Betreiber die von Bright Data gemessenen Domain-Gesundheitsstatistiken und Traffic-Statistiken einsehen.

Warnmeldungen
In der Konsole kann der Webmaster Warnregeln hinzufügen, mit denen der Benutzer verfolgen und benachrichtigt werden kann, wenn auf bestimmte Arten von Informationen zugegriffen wird – beispielsweise beim Scannen der Daten nach personenbezogenen Daten, beim Zugriff auf bestimmte Website-Endpunkte usw.


Was ist collectors.txt?
Die Datei collectors.txt ist eine konfigurierbare Ressource, die von der Web MasterConsole von Bright Data bereitgestellt wird und es Webmastern ermöglicht, Richtlinien für die ethische und effiziente Datenerfassung von ihren Websites festzulegen. Ihr Hauptzweck besteht darin, die Transparenz und Kontrolle zu verbessern, indem bestimmte Zugriffsregeln und -beschränkungen an Brightbott, den Webcrawler von Bright Data, übermittelt werden. Webmaster können collectors.txt verwenden, um Endpunkte mit personenbezogenen Daten (PII) anzugeben, den Zugriff auf interaktive Elemente wie Werbelinks oder Bewertungen zu untersagen, organische Traffic-Lasten zu melden, den Copyright-Status von Daten zu aktualisieren und Spitzenzeiten für den Traffic zu definieren, um eine Überlastung der Ressourcen zu verhindern. Diese Datei stellt sicher, dass die Datenerfassung mit den Datenschutzgesetzen und Ressourcenbeschränkungen übereinstimmt und fördert einen verantwortungsvollen Umgang mit der Website. Nach der Konfiguration überprüft Bright Data die Datei collectors.txt, und Brightbot setzt die genehmigten Richtlinien während seines Betriebs durch.
Schutztechnologie
Im Laufe der Jahre hat Bright Data viele Funktionen und Technologieebenen hinzugefügt, um den vorsätzlichen oder versehentlichen Missbrauch seines Netzwerks zu identifizieren, zu verhindern und zu mindern. Compliance-Tools wie KYC-Überprüfung werden im Abschnitt „Compliance” näher erläutert. Hier konzentrieren wir uns auf die zu diesem Zweck eingesetzte automatische Technologie.
Zustandsüberwachung (DDoS-Schutz)
Für jede Domain, die von einem der Produkte von Bright Data erfasst wird, öffnet das System einen Gesundheitsmonitor. Der Gesundheitsmonitor verfolgt die Reaktionsfähigkeit der Domain rund um die Uhr über verschiedene geografische Standorte und Zeiträume hinweg. Jeder Gesundheitsmonitor erhält außerdem einen Feed mit dem aggregierten Traffic von Bright Data, der auf die von ihm überwachte Domain abzielt, in Echtzeit. Wenn der Monitor eine Korrelation zwischen dem Traffic von Bright Data und einer Verschlechterung der Reaktionsfähigkeit der Domain feststellt, erzwingt er eine Ratenbegrenzung, die der letzten Traffic-Rate entspricht, die keine negativen Auswirkungen auf die Domain hatte. Diese Ratenbegrenzung wird zwischengespeichert und nicht entfernt.
Nachfolgend finden Sie ein Beispiel für einen solchen Fall – die Auswirkung wurde innerhalb von 2 Minuten identifiziert und eine Ratenbegrenzung durchgesetzt. Die rote Markierung zeigt den Traffic, der anschließend von Bright Data blockiert wurde, und die RTT der Website, die wieder normal ist.

Domänenklassifizierungen
Bright Data klassifiziert jede Domain, die von seinen Kunden für jedes Produkt angesteuert wird. Täglich werden mehr als 300.000 neue Domains klassifiziert. Einige Klassifizierungen werden dauerhaft auf die schwarze Liste gesetzt, wie Malware und Phishing, und einige Kategorien werden standardmäßig blockiert, können aber nach besonderer Prüfung und Genehmigung durch die Compliance-Abteilung angesteuert werden, wie z. B. Regierungsbehörden und NGOs.

Authentifizierungs- und Cookie-Sperren
Standardmäßig betrachtet Bright Data alle Daten hinter der Anmeldung als privat. Daher blockiert Bright Data in allen sichtbaren Datenverkehr die Verwendung von Authentifizierungs-Cookies und bei der Verwendung von Browsern auch die Möglichkeit, Passwörter einzugeben.
Eine Sondergenehmigung kann durch Einreichen einer Anfrage an compliancDCe erlangt werden – eine Genehmigung wird in sehr seltenen Fällen erteilt, in denen der Eigentümer der Daten dem Zugriff des Kunden ausdrücklich zugestimmt hat.
Verfolgung von Anwendungsfällen
Während der KYC-Überprüfung werden die vom Kunden bei der Beantragung des Zugriffs auf das Residential-Proxy-Netzwerk angegebenen Zieldomänen und Branchen aufgezeichnet.
Nach der Genehmigung verfolgt Bright Data die Nutzung durch den Kunden. Weicht diese von den angegebenen Anwendungsfällen ab, wird das Compliance-Team benachrichtigt, das dies mit dem Kunden untersucht.
Compliance und Ethik
- Nutzungsbedingungen –
https://brightdata.com/trustcenter/acceptable-use-policy-bright-data - Bright Data KYC-Überprüfung (Know Your Customer) –
https://brightdata.com/trustcenter/kyc - Nutzungsüberwachung –
https://brightdata.com/trustcenter/proxy-services-verticals-usage-monitoring - Domain-Klassifizierung –
https://brightdata.com/trustcenter/ethical-network-use-classification - Missbrauchsverhinderung und -behandlung –https://brightdata.com/trustcenter/abuse
- Schutz des WWW –
https://brightdata.com/trustcenter/brightbot-ethical-web-data-guardian - Webüberwachung –
https://brightdata.com/trustcenter/ethical-web-data-collection-monitoring - Infosec –
https://brightdata.com/trustcenter/data-security-overview-protection-measures