Scrapy proxy integation

Scrapy Proxy Integration

Was ist Scrapy?

Scrapy ist ein Python-Framework für Webcrawling und Scraping, mit dem Benutzer strukturierte Daten von Websites extrahieren können. Es ist Open-Source, schnell und erweiterbar. Scrapy kann für verschiedene Zwecke verwendet werden, z. B. für Data-Mining, Überwachung und automatisiertes Testen.

Scrapy-Integration mit Bright Data-Proxys

Öffnen Sie Ihre bevorzugte IDE und starten Sie ein neues Scrapy-Projekt. Geben Sie die Befehlszeile ein:

      Scrapy Startprojekt
    

Hierdurch wird ein neuer Ordner mit dem Projektnamen erstellt. Öffnen Sie in diesem Ordner eine Python-Datei.

  • Gehen Sie zu Ihrem Bright Data-Bedienfeld und klicken Sie auf das Symbol „Proxies und Scraping Infra“.
  • Erstellen Sie eine neue Proxy-Zone, indem Sie auf „Hinzufügen“ klicken, einen Netzwerktyp auswählen, den Proxy konfigurieren und auf Speichern klicken
  • Auf der Registerkarte „Zugriffsparameter“ Ihrer Proxy-Zone finden Sie Ihre Werte für „BENUTZERNAME“ und „PASSWORT“.
  • Setzen Sie in Ihrer Spider-Code-Datei von Scrapy im Meta-Parameter der Anfrage den Wert „Proxy“ auf den folgenden Wert und verwenden Sie die zuvor angegebenen Werte „BENUTZERNAME“ und „PASSWORT“: „http://USERNAME:[email protected]:22225
  • Zum Beispiel:
      import scrapy

class BrightDataScrapyExampleSpider (scrapy.Spider):
   name = „BrightDataScrapyExample“

  def start_requests (self):
       request = scrapy.request (url=“ http://example.com",callback=self.parse)
       request.meta ['proxy'] = "http://USERNAME:[email protected]:22225"
       yield request

   def parse (self, response):
       print (response.body)
    

Führen Sie dann den folgenden Befehl in Ihrer Befehlszeile aus:

      Scrapy-Runspider
    

Verwendung des Bright Data Proxy-Managers mit Scrapy

  • Erstellen Sie eine Proxy-Zone wie in der direkten Integration oben
  • Installieren Sie den Proxy Manager
  • Klicken Sie auf „Neuen Port hinzufügen“ und konfigurieren Sie ihn für Ihren Anwendungsfall
  • Setzen Sie in Ihrer Scrapy-Spider-Code-Datei im Meta-Parameter der Anfrage den Wert „Proxy“ auf den folgenden Wert: „http://IP:PORTNUMBER“
  • Die lokale Host-IP ist 127.0.0.1. Dies ist der zu verwendende Wert, wenn der Proxy-Manager auf Ihrem Rechner installiert ist. Wenn der Proxy-Manager auf einem externen Server installiert ist, geben Sie die IP-Adresse dieses Servers ein
  • Der im Proxy-Manager erstellte Port ist 24XXX, z. B. 24000 — die standardmäßige erste Portnummer
  • Zum Beispiel:
      import scrapy

class BrightDataScrapyExampleSpider (scrapy.Spider):
   name = „BrightDataScrapyExample“

   def start_requests (self):
       request = scrapy.request (url=“ http://example.com",callback=self.parse)
       request.meta ['proxy'] = "http://127.0.0.1:24000"
       yield request

   def parse (self, response):
       print (response.body)
    

Holen Sie sich Proxys für Scrapy

Proxy badges

Angetrieben von einem preisgekrönten Residential-Proxy-Netzwerk

Über 72 Millionen residential IPs, erstklassige Technologie und die Fähigkeit jedes Land, jede Stadt, jeden Anbieter und jede ASN zu erreichen, machen unsere Premium-Proxy-Dienste zur ersten Wahl für Entwickler

Proxy-Arten für jeden Bedarf

Residential Proxys

  • 72,000,000+ IPs
  • Verfügbar in 195 Ländern
  • Das größte rotierende Real-Peer-IP-Netz
  • Zugriff auf und Crawlen durch alle anspruchsvollen Websites

Datacenter Proxys

  • 770,000+ IPs
  • Verfügbar in 195 Ländern
  • Geteilte und dedizierte IP-Pools verfügbar
  • Schneller Zugriff auf nicht komplexe Websites

ISP-Proxys

  • 700,000+ IPs
  • Verfügbar in 35 Ländern
  • Echte statische private IPs ohne IP-Rotation
  • Optimal für die Anmeldung an mehreren Konten

Mobile Proxies

  • 7,000,000+ IPs
  • Verfügbar in 195 Ländern
  • Größtes echtes Peer-3G/4G-IP-Netz der Welt
  • Mobil-Anzeigen überprüfen und durch Mobil-Websites crawlen

Das beste Kundenerlebnis in der Branche!

Sie fragen, wir entwickeln

Neue Funktionsveröffentlichungen jeden Tag

24/7 globale Unterstützung

Um Fragen zu beantworten, wenn Sie sie benötigen

Vollständige Transparenz

Echtzeit-Netzwerkleistungs-Dashboard

Gewidmete Kontomanager

Um Ihre Leistung zu optimieren

Maßgeschneiderte Lösungen

Um Ihre Datensammelziele zu erreichen

Der führende Anbieter von Proxies und Datenerfassung

Category leader in proxies
Täglich werden 650TB an öffentlichen Daten gesammelt
Number of ISP proxies
Neue Funktionen werden täglich veröffentlicht
Serving 7/10 universities
Skalierung auf Unternehmensniveau
Trust pilot ratings
4.8/5 höchste Trustpilot-Bewertung in der Branche

Bereit für Scrapy-Proxys?