Was ist ein Webcrawler?

5 min read
What is a web crawler featured image

Webcrawler sind ein wichtiger Teil der Infrastruktur des Internets. In diesem Artikel geht es um Folgendes:

Webcrawler – Definition

Ein Webcrawler ist ein Software-Roboter, der das Internet durchsucht und die gefundenen Daten herunterlädt. Die meisten Webcrawler werden von Suchmaschinen wie Google, Bing, Baidu und DuckDuckGo betrieben. Suchmaschinen wenden ihre Suchalgorithmen auf die gesammelten Daten an, um ihren Suchmaschinenindex zu erstellen. Die Indizes ermöglichen es den Suchmaschinen, den Nutzern auf der Grundlage ihrer Suchanfragen relevante Links zu liefern.

Es gibt Webcrawler, die anderen Interessen als denen von Suchmaschinen dienen, wie z. B. The Way Back Machine vom Internet Archive, das Momentaufnahmen von Webseiten zu einem bestimmten Zeitpunkt in der Vergangenheit liefert.  

Wie funktionieren Webcrawler?

Webcrawler, wie der Googlebot, beginnen jeden Tag mit einer Liste von Webseiten, die sie crawlen wollen. Dies wird als Crawl-Budget bezeichnet. Das Budget spiegelt den Bedarf an zu indexierenden Seiten wider. Zwei wichtige Faktoren beeinflussen das Crawl-Budget: Popularität und Veralterung. URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, damit sie im Index aktueller bleiben. Webcrawler versuchen auch zu verhindern, dass URLs im Index veralten.

Wenn ein Webcrawler eine Verbindung zu einer Webseite herstellt, lädt er zunächst die robots.txt-Datei herunter und liest sie. Die Datei robots.txt ist Teil des Robots Exclusion Protokolls (REP), einer Gruppe von Webstandards, die regeln, wie Robots das Web crawlen, auf Inhalte zugreifen und diese indizieren und den Benutzern zur Verfügung stellen. Besitzer einer Webseite können festlegen, welche User Agents auf die Seite zugreifen können und welche nicht. Robots.txt kann auch eine Crawl-Delay-Direktive definieren, um das Tempo der Anfragen eines Crawlers an die Webseite zu drosseln. Robots.txt listet auch die mit einer Webseite verbundenen Sitemaps auf, sodass der Crawler jede Seite finden kann und weiß, wann sie zuletzt aktualisiert wurde. Wenn sich eine Seite seit dem letzten Crawler-Besuch nicht geändert hat, wird sie in diesem Fall übersprungen.  

Wenn ein Webcrawler schließlich eine zu crawlende Seite erreicht, rendert er die Seite in einem Browser und lädt den gesamten HTML-Code, den Code von Drittanbietern, JavaScript und CSS. Diese Informationen werden in der Datenbank der Suchmaschine gespeichert und später zur Indizierung und Einstufung der Seite verwendet. Es werden auch alle Links auf der Seite heruntergeladen. Links, die sich noch nicht im Index der Suchmaschine befinden, werden in eine Liste aufgenommen, die später gecrawlt wird.

Die Einhaltung der Richtlinien in einer robots.txt-Datei ist freiwillig. Die meisten großen Suchmaschinen befolgen die robots.txt-Richtlinien, einige aber auch nicht. Böswillige Akteure wie Spammer und Botnets ignorieren die robots.txt-Richtlinien. Sogar einige seriöse Webcrawler, wie das Internet Archive, ignorieren robots.txt.

Beispiele für Webcrawler

Suchmaschinen haben mehrere Arten von Webcrawlern. Google hat beispielsweise 17 Arten von Bots:

  • APIs-Google
  • AdSense
  • AdsBot Mobile Web Android
  • AdsBot Mobile Web
  • Googlebot Image
  • Googlebot News
  • Googlebot Video
  • Googlebot Desktop
  • Googlebot Smartphone
  • Mobile Apps Android
  • Mobile AdSense
  • Feedfetcher
  • Google Read Aloud
  • Duplex on the web
  • Google Favicon
  • Web Light
  • Google StoreBot

Gründe, warum Webcrawler für SEO wichtig sind

Das Ziel der Suchmaschinenoptimierung besteht darin, dass Ihre Inhalte leicht gefunden werden, wenn ein Nutzer nach einem verwandten Suchbegriff sucht. Google kann nicht erkennen, wo Ihre Inhalte zu platzieren sind, wenn sie nicht gecrawlt und indiziert werden.

Webcrawler können auch in anderen Bereichen hilfreich sein. E-Commerce-Websites durchforsten häufig die Websites von Wettbewerbern, um die Produktauswahl und die Preisgestaltung zu analysieren. Diese Art der Datenerfassung wird in der Regel als „Web Scraping statt Webcrawling“ bezeichnet. Web Scraping konzentriert sich auf bestimmte HTML-Datenelemente. Webcrawler sind sehr zielgerichtet, während Webcrawler ein weites Netz auswerfen und alle Inhalte erfassen. Auf der Nutzerseite gibt es auch SERP API-Tools, die beim Crawlen und Scrapen von SERP-Daten helfen.  

Herausforderungen für Webcrawler

Es gibt eine Reihe von Herausforderungen, denen sich Webcrawler stellen müssen.

HerausforderungBeschreibung
Robots.txt-BeschränkungenWenn der Webcrawler die robots.txt-Beschränkungen beachtet, kann es sein, dass er auf bestimmte Webseiten nicht zugreifen oder keine Anfragen über eine beliebige Grenze hinaus stellen kann.
IP-SperrenDa einige Webcrawler die robots.txt-Beschränkungen nicht beachten, können sie eine Reihe anderer Tools einsetzen, um das Webcrawling einzuschränken. Webseiten können IP-Adressen sperren, die als gefährlich bekannt sind, z. B. kostenlose Datenproxys, die von Betrügern verwendet werden, oder bestimmte IP-Adressen von Rechenzentren.
Geografische BeschränkungenEinige Webseiten erfordern, dass ein Besucher sich in einer bestimmten geografischen Region befindet, um auf die Inhalte der Webseite zugreifen zu können. Ein gutes Beispiel dafür ist der Versuch, von einem nicht-amerikanischen Standort aus auf die Inhalte von Netflix USA zuzugreifen. Die meisten geografischen Beschränkungen können durch die Nutzung von Residential Proxy-Netzwerken überwunden werden.  
CAPTCHAsEinige Webseiten, die ein hohes Aufkommen an Aktivitäten aus verdächtigen Quellen feststellen, zeigen CAPTCHAs an, um zu überprüfen, ob ein echter Mensch hinter einer Anfrage steht. CAPTCHAs können die Aktivität von Webcrawlern stören. Viele Web-Scraping-Lösungen verfügen über Tools und Technologien, um diese Art von Blockaden zu überwinden. Diese Entsperrungstools verwenden oft eine CAPTCHA-Lösung.  

Zusammenfassung

  Webcrawler sind ein wichtiger Teil der Infrastruktur des Internets. Sie ermöglichen es Suchmaschinen, die Daten zu sammeln, die sie für den Aufbau ihrer Suchindizes benötigen, damit sie Suchergebnisse für Nutzeranfragen liefern können. Viele Unternehmen greifen auf Webcrawler zurück, um sie bei ihren Recherchen zu unterstützen. Tatsächlich konzentrieren sie sich oft nur auf eine oder zwei Websites, wie Amazon, Adidas oder Airbnb. In diesen Fällen sind Tools wie Web Scraper IDE von Bright Data besser für ihre Bedürfnisse geeignet.