cURL: Was es ist, und wie Sie es für Web Scraping verwenden können

cURL ist ein vielseitiger Befehl, der von Programmierern zur Datenerfassung und -übertragung verwendet wird. Aber wie können Sie cURL für Web Scraping nutzen? Dieser Artikel wird Ihnen den Einstieg erleichtern.
Gal El Al of Bright Data
Gal El Al | Director of Support
23-Dec-2020

In diesem Blogbeitrag beantworten wir folgende Fragen:

Was ist cURL?

cURL ist ein Kommandozeilen-Tool, mit dem Sie Daten über Netzwerkprotokolle übertragen können. Der Name cURL steht für „Client URL“ und kann auch „curl“ geschrieben werden. Dieser beliebte Befehl verwendet die URL-Syntax, um Daten zu und von Servern zu übertragen. Curl basiert auf „libcurl“, einer kostenlosen und einfach zu verwendenden URL-Übertragungsbibliothek auf der Client-Seite.

Warum ist die Verwendung von curl vorteilhaft?

Die Vielseitigkeit dieses Befehls bedeutet, dass Sie curl für eine Vielzahl von Anwendungsfällen verwenden können, darunter:

  • Benutzerauthentifizierung
  • HTTP-Beiträge
  • SSL-Verbindungen
  • Proxy-Unterstützung
  • FTP-Uploads

Der einfachste Anwendungsfall für Curl ist das Herunterladen und Hochladen ganzer Websites mit einem der unterstützten Protokolle.

Curl-Protokolle

Obwohl curl eine lange Liste von unterstützten Protokollen hat, wird standardmäßig HTTP verwendet, wenn Sie kein bestimmtes Protokoll angeben. Hier ist die Liste der unterstützten Protokolle:

cURL-Befehl - Liste der unterstützten Protokolle - dict, file, ftp, ftps, gopher, http, https, imap, imaps, ldap, pop3, stmp, rtsp, scp, sftp, smb, sms, telnet, tftp

Installieren von curl

Der Befehl curl wird in Linux-Distributionen standardmäßig installiert.

Wie können Sie überprüfen, ob Sie curl bereits installiert haben?

1. Öffnen Sie Ihre Linux-Konsole

2. Geben Sie „curl“ ein und drücken Sie „enter“.

3. Wenn Sie curl bereits installiert haben, wird die folgende Meldung angezeigt:

terminal window cURL try -help -manual commands

4. Wenn Sie curl noch nicht installiert haben, sehen Sie die folgende Meldung: „Befehl nicht gefunden“. Wählen Sie dann Ihr Distributionspaket aus und installieren Sie es (mehr dazu weiter unten).

So benutzt man cURL

Die Syntax von Curl ist ziemlich einfach:

command line Curl options url

Wenn Sie z. B. eine Webseite herunterladen möchten, führen Sie einfach webpage.com aus:

curl command line webpage.com

Der Befehl liefert Ihnen dann den Quellcode der Seite in Ihrem Terminalfenster. Denken Sie daran, dass curl standardmäßig HTTP verwendet, wenn Sie kein Protokoll angeben. Unten finden Sie ein Beispiel dafür, wie Sie bestimmte Protokolle definieren können:

ftp cURL command line syntax

Wenn Sie vergessen :// hinzuzufügen, wird curl automatisch das Protokoll ermitteln, das Sie verwenden möchten.

Wir haben kurz über die grundlegende Verwendung des Befehls gesprochen, aber Sie können eine Liste von Optionen auf der curl-Dokumentationsseite finden. Diese Optionen sind die möglichen Aktionen, die Sie mit der URL durchführen können. Wenn Sie eine Option auswählen, teilt sie curl mit, welche Aktion an der angegebenen URL durchgeführt werden soll. Die URL teilt cURL mit, wo es diese Aktion ausführen soll. Dann lässt cURL Sie eine oder mehrere URL auflisten.

Um mehrere URLs herunterzuladen, stellen Sie jeder URL ein -0 gefolgt von einem Leerzeichen voran. Sie können dies in einer einzigen Zeile tun oder für jede URL eine eigene Zeile schreiben. Sie können auch einen Teil einer URL herunterladen, indem Sie die Seiten auflisten. Ein Beispiel:

curl command line for multiple pages on website

 

 Speichern des Downloads

Sie können den Inhalt der URL in einer Datei speichern, indem Sie curl mit zwei verschiedenen Methoden verwenden:

1. -o Methode: Mit dieser Option können Sie einen Dateinamen angeben, unter dem die URL gespeichert werden soll. Diese Option hat die folgende Struktur:

Command line CURL filename

2. -O Methode: Hier brauchen Sie keinen Dateinamen hinzuzufügen, da Sie mit dieser Option die Datei unter dem URL-Namen speichern können. Um diese Option zu verwenden, müssen Sie der URL lediglich ein -O voranstellen.

Wiederaufnahme des Downloads

Es kann vorkommen, dass der Download mittendrin abbricht. In diesem Fall schreiben Sie den Befehl neu und fügen die Option -C am Anfang hinzu:

curl filename as URL

Warum ist curl so beliebt?

Curl ist wirklich das „Schweizer Messer“ unter den Befehlen, das für komplexe Vorgänge entwickelt wurde. Es gibt jedoch auch Alternativen, zum Beispiel „wget“ oder „Kurly“, die für einfachere Aufgaben geeignet sind.

Curl ist bei Entwicklern sehr beliebt, da es für fast jede Plattform verfügbar ist. Manchmal ist es sogar standardmäßig installiert. Das bedeutet, dass die curl-Befehle unabhängig von den Programmen/Arbeitsplätzen, die Sie ausführen, funktionieren sollten.

Wenn Ihr Betriebssystem nicht älter als zehn Jahre ist, ist es wahrscheinlich, dass Sie curl installiert haben. Sie können die Dokumente auch in einem Browser lesen und in der curl-Documentation nachsehen. Wenn Sie eine neuere Version von Windows verwenden, ist curl wahrscheinlich bereits installiert. Wenn nicht, lesen Sie diesen Beitrag auf Stack Overflow, um mehr darüber zu erfahren, wie Sie dies durchführen können.

Web Scraping mit cURL

Profi-Tipp: Halten Sie sich unbedingt an die Regeln einer Website und versuchen Sie auf keinen Fall, auf passwortgeschützte Inhalte zuzugreifen, da dies in den meisten Fällen illegal oder zumindest unerwünscht ist.

Sie können curl verwenden, um den sich wiederholenden Prozess beim Web Scraping zu automatisieren und so mühsame Aufgaben zu vermeiden. Dazu müssen Sie PHP verwenden. Hier ist ein Beispiel, das wir auf GitHub gefunden haben:

web scraping script in php using curl

Wenn Sie curl verwenden, um eine Webseite zu scrapen, gibt es drei Optionen, die Sie verwenden sollten:

  • curl_init($url) -> Initialisiert die Sitzung
  • curl_exec() -> Führt aus
  • Curl_close() -> Schließt
code syntax for scraping a web page using curl

Andere Optionen, die Sie verwenden sollten, sind:

  • Curlopt_url -> Legt die URL fest, die Sie scrapen wollen
setting the URL you want to scrape with cURL
  • Curlopt_returntransfer -> Weist curl an, die gescrapte Seite als Variable zu speichern. (So erhalten Sie genau das, was Sie aus der Seite extrahieren wollten).
curl command line for saving scraped page as a variable

Haben Sie genug von manuellen Web-Scraping-Techniken?

Bright Data hat eine vollautomatische, codefreie Lösung entwickelt, mit der Sie per Mausklick Zugriff auf ganze Websites und bestimmte Datenpunkte erhalten können.

Gal El Al of Bright Data
Gal El Al | Director of Support

Head of Support at Bright Data with a demonstrated history of working in the computer and network security industry. Specializing in billing processes, technical support, quality assurance, account management, as well as helping customers streamline their data collection efforts while simultaneously improving cost efficiency.

Das könnte Sie auch interessieren

What is a proxy server & how does it work?

Was ist ein Proxy-Server und wie funktioniert er?

In diesem Leitfaden finden Sie alles, was Sie über Proxy-Server wissen müssen, einschließlich ihrer Funktionsweise, der verschiedenen derzeit verfügbaren Proxy-Typen und eines Vergleichs zwischen Proxy-Servern und VPNs, damit Ihr Unternehmen das richtige Tool für Ihr Unternehmen auswählen kann.
How to use Selenium for web scraping

Anleitung zum Web Scraping mit Selenium

Dies ist die einzige Schritt-für-Schritt-Anleitung, die Sie benötigen, um in weniger als 10 Minuten mit dem Erfassen von Webdaten auf Zielseiten zu beginnen und diese als CSV-Dateien zu speichern.
What is a reverse proxy

Was ist ein Reverse Proxy?

Reverse Proxys können als effizientes Verschlüsselungs-Tool dienen, die Lastverteilung unterstützen und Inhalte lokal zwischenspeichern, um sicherzustellen, dass sie schnell an die Datenkonsumenten geliefert werden. Dieser Artikel ist Ihr ultimativer Leitfaden zu Reverse Proxys.
What is a private proxy

Was ist ein privater Proxy?

Private Proxys bieten eine bessere Sicherheit, eine erhöhte Privatsphäre und eine 99,9%ige Erfolgsrate zu einem höheren Preis. Gemeinsame Proxys sind die wesentlich kostengünstigere Option für Zielwebsites mit einfacheren Website-Architekturen. Dieser Leitfaden wird Ihnen helfen, die wichtigsten Unterschiede zu verstehen und die richtige Wahl für Ihr Unternehmen zu treffen.