In diesem Blogbeitrag beantworten wir folgende Fragen:
Was ist cURL?
cURL ist ein Kommandozeilen-Tool, mit dem Sie Daten über Netzwerkprotokolle übertragen können. Der Name cURL steht für „Client URL“ und kann auch „curl“ geschrieben werden. Dieser beliebte Befehl verwendet die URL-Syntax, um Daten zu und von Servern zu übertragen. Curl basiert auf „libcurl“, einer kostenlosen und einfach zu verwendenden URL-Übertragungsbibliothek auf der Client-Seite.
Warum ist die Verwendung von curl vorteilhaft?
Die Vielseitigkeit dieses Befehls bedeutet, dass Sie curl für eine Vielzahl von Anwendungsfällen verwenden können, darunter:
- Benutzerauthentifizierung
- HTTP-Beiträge
- SSL-Verbindungen
- Proxy-Unterstützung
- FTP-Uploads
Der einfachste Anwendungsfall für Curl ist das Herunterladen und Hochladen ganzer Websites mit einem der unterstützten Protokolle.
Curl-Protokolle
Obwohl curl eine lange Liste von unterstützten Protokollen hat, wird standardmäßig HTTP verwendet, wenn Sie kein bestimmtes Protokoll angeben. Hier ist die Liste der unterstützten Protokolle:
Installieren von curl
Der Befehl curl wird in Linux-Distributionen standardmäßig installiert.
Wie können Sie überprüfen, ob Sie curl bereits installiert haben?
1. Öffnen Sie Ihre Linux-Konsole
2. Geben Sie „curl“ ein und drücken Sie „enter“.
3. Wenn Sie curl bereits installiert haben, wird die folgende Meldung angezeigt:
4. Wenn Sie curl noch nicht installiert haben, sehen Sie die folgende Meldung: „Befehl nicht gefunden“. Wählen Sie dann Ihr Distributionspaket aus und installieren Sie es (mehr dazu weiter unten).
So benutzt man cURL
Die Syntax von Curl ist ziemlich einfach:
Wenn Sie z. B. eine Webseite herunterladen möchten, führen Sie einfach webpage.com aus:
Der Befehl liefert Ihnen dann den Quellcode der Seite in Ihrem Terminalfenster. Denken Sie daran, dass curl standardmäßig HTTP verwendet, wenn Sie kein Protokoll angeben. Unten finden Sie ein Beispiel dafür, wie Sie bestimmte Protokolle definieren können:
Wenn Sie vergessen :// hinzuzufügen, wird curl automatisch das Protokoll ermitteln, das Sie verwenden möchten.
Wir haben kurz über die grundlegende Verwendung des Befehls gesprochen, aber Sie können eine Liste von Optionen auf der curl-Dokumentationsseite finden. Diese Optionen sind die möglichen Aktionen, die Sie mit der URL durchführen können. Wenn Sie eine Option auswählen, teilt sie curl mit, welche Aktion an der angegebenen URL durchgeführt werden soll. Die URL teilt cURL mit, wo es diese Aktion ausführen soll. Dann lässt cURL Sie eine oder mehrere URL auflisten.
Um mehrere URLs herunterzuladen, stellen Sie jeder URL ein -0 gefolgt von einem Leerzeichen voran. Sie können dies in einer einzigen Zeile tun oder für jede URL eine eigene Zeile schreiben. Sie können auch einen Teil einer URL herunterladen, indem Sie die Seiten auflisten. Ein Beispiel:
Speichern des Downloads
Sie können den Inhalt der URL in einer Datei speichern, indem Sie curl mit zwei verschiedenen Methoden verwenden:
1. -o Methode: Mit dieser Option können Sie einen Dateinamen angeben, unter dem die URL gespeichert werden soll. Diese Option hat die folgende Struktur:
2. -O Methode: Hier brauchen Sie keinen Dateinamen hinzuzufügen, da Sie mit dieser Option die Datei unter dem URL-Namen speichern können. Um diese Option zu verwenden, müssen Sie der URL lediglich ein -O voranstellen.
Wiederaufnahme des Downloads
Es kann vorkommen, dass der Download mittendrin abbricht. In diesem Fall schreiben Sie den Befehl neu und fügen die Option -C am Anfang hinzu:
Warum ist curl so beliebt?
Curl ist wirklich das „Schweizer Messer“ unter den Befehlen, das für komplexe Vorgänge entwickelt wurde. Es gibt jedoch auch Alternativen, zum Beispiel „wget“ oder „Kurly“, die für einfachere Aufgaben geeignet sind.
Curl ist bei Entwicklern sehr beliebt, da es für fast jede Plattform verfügbar ist. Manchmal ist es sogar standardmäßig installiert. Das bedeutet, dass die curl-Befehle unabhängig von den Programmen/Arbeitsplätzen, die Sie ausführen, funktionieren sollten.
Wenn Ihr Betriebssystem nicht älter als zehn Jahre ist, ist es wahrscheinlich, dass Sie curl installiert haben. Sie können die Dokumente auch in einem Browser lesen und in der curl-Documentation nachsehen. Wenn Sie eine neuere Version von Windows verwenden, ist curl wahrscheinlich bereits installiert. Wenn nicht, lesen Sie diesen Beitrag auf Stack Overflow, um mehr darüber zu erfahren, wie Sie dies durchführen können.
Web Scraping mit cURL
Profi-Tipp: Halten Sie sich unbedingt an die Regeln einer Website und versuchen Sie auf keinen Fall, auf passwortgeschützte Inhalte zuzugreifen, da dies in den meisten Fällen illegal oder zumindest unerwünscht ist.
Sie können curl verwenden, um den sich wiederholenden Prozess beim Web Scraping zu automatisieren und so mühsame Aufgaben zu vermeiden. Dazu müssen Sie PHP verwenden. Hier ist ein Beispiel, das wir auf GitHub gefunden haben:
Wenn Sie curl verwenden, um eine Webseite zu scrapen, gibt es drei Optionen, die Sie verwenden sollten:
- curl_init($url) -> Initialisiert die Sitzung
- curl_exec() -> Führt aus
- Curl_close() -> Schließt
Andere Optionen, die Sie verwenden sollten, sind:
- Curlopt_url -> Legt die URL fest, die Sie scrapen wollen
- Curlopt_returntransfer -> Weist curl an, die gescrapte Seite als Variable zu speichern. (So erhalten Sie genau das, was Sie aus der Seite extrahieren wollten).
Haben Sie genug von manuellen Web-Scraping-Techniken?
Bright Data hat eine vollautomatische, codefreie Lösung entwickelt, mit der Sie per Mausklick Zugriff auf ganze Websites und bestimmte Datenpunkte erhalten können.