Scrapy Proxy Integration
Was ist Scrapy?
Scrapy ist ein Python-Framework für Webcrawling und Scraping, mit dem Benutzer strukturierte Daten von Websites extrahieren können. Es ist Open-Source, schnell und erweiterbar. Scrapy kann für verschiedene Zwecke verwendet werden, z. B. für Data-Mining, Überwachung und automatisiertes Testen.
Scrapy-Integration mit Bright Data-Proxys
Öffnen Sie Ihre bevorzugte IDE und starten Sie ein neues Scrapy-Projekt. Geben Sie die Befehlszeile ein:
Scrapy Startprojekt
Hierdurch wird ein neuer Ordner mit dem Projektnamen erstellt. Öffnen Sie in diesem Ordner eine Python-Datei.
- Gehen Sie zu Ihrem Bright Data-Bedienfeld und klicken Sie auf das Symbol „Proxies und Scraping Infra“.
- Erstellen Sie eine neue Proxy-Zone, indem Sie auf „Hinzufügen“ klicken, einen Netzwerktyp auswählen, den Proxy konfigurieren und auf Speichern klicken
- Auf der Registerkarte „Zugriffsparameter“ Ihrer Proxy-Zone finden Sie Ihre Werte für „BENUTZERNAME“ und „PASSWORT“.
- Setzen Sie in Ihrer Spider-Code-Datei von Scrapy im Meta-Parameter der Anfrage den Wert „Proxy“ auf den folgenden Wert und verwenden Sie die zuvor angegebenen Werte „BENUTZERNAME“ und „PASSWORT“: „http://USERNAME:[email protected]:33335“
- Zum Beispiel:
import scrapy
class BrightDataScrapyExampleSpider (scrapy.Spider):
name = „BrightDataScrapyExample“
def start_requests (self):
request = scrapy.request (url=“ http://example.com",callback=self.parse)
request.meta ['proxy'] = "http://USERNAME:[email protected]:33335"
yield request
def parse (self, response):
print (response.body)
Führen Sie dann den folgenden Befehl in Ihrer Befehlszeile aus:
Scrapy-Runspider
Verwendung des Bright Data Proxy-Managers mit Scrapy
- Erstellen Sie eine Proxy-Zone wie in der direkten Integration oben
- Installieren Sie den Proxy Manager
- Klicken Sie auf „Neuen Port hinzufügen“ und konfigurieren Sie ihn für Ihren Anwendungsfall
- Setzen Sie in Ihrer Scrapy-Spider-Code-Datei im Meta-Parameter der Anfrage den Wert „Proxy“ auf den folgenden Wert: „http://IP:PORTNUMBER“
- Die lokale Host-IP ist 127.0.0.1. Dies ist der zu verwendende Wert, wenn der Proxy-Manager auf Ihrem Rechner installiert ist. Wenn der Proxy-Manager auf einem externen Server installiert ist, geben Sie die IP-Adresse dieses Servers ein
- Der im Proxy-Manager erstellte Port ist 24XXX, z. B. 24000 — die standardmäßige erste Portnummer
- Zum Beispiel:
import scrapy
class BrightDataScrapyExampleSpider (scrapy.Spider):
name = „BrightDataScrapyExample“
def start_requests (self):
request = scrapy.request (url=“ http://example.com",callback=self.parse)
request.meta ['proxy'] = "http://127.0.0.1:24000"
yield request
def parse (self, response):
print (response.body)
Holen Sie sich Proxys für Scrapy
Angetrieben von einem preisgekrönten Residential-Proxy-Netzwerk
Über 72 Millionen residential IPs, erstklassige Technologie und die Fähigkeit jedes Land, jede Stadt, jeden Anbieter und jede ASN zu erreichen, machen unsere Premium-Proxy-Dienste zur ersten Wahl für Entwickler
Proxy-Arten für jeden Bedarf
Residential Proxys
- 72,000,000+ IPs
- Verfügbar in 195 Ländern
- Das größte rotierende Real-Peer-IP-Netz
- Zugriff auf und Crawlen durch alle anspruchsvollen Websites
Datacenter Proxys
- 770,000+ IPs
- Verfügbar in 195 Ländern
- Geteilte und dedizierte IP-Pools verfügbar
- Schneller Zugriff auf nicht komplexe Websites
ISP-Proxys
- 700,000+ IPs
- Verfügbar in 35 Ländern
- Echte statische private IPs ohne IP-Rotation
- Optimal für die Anmeldung an mehreren Konten
Mobile Proxies
- 7,000,000+ IPs
- Verfügbar in 195 Ländern
- Größtes echtes Peer-3G/4G-IP-Netz der Welt
- Mobil-Anzeigen überprüfen und durch Mobil-Websites crawlen
Das beste Kundenerlebnis in der Branche!
Neue Funktionsveröffentlichungen jeden Tag
Um Fragen zu beantworten, wenn Sie sie benötigen
Echtzeit-Netzwerkleistungs-Dashboard
Um Ihre Leistung zu optimieren
Um Ihre Datensammelziele zu erreichen