cURL: Was es ist, und wie Sie es für Web Scraping verwenden können

cURL ist ein vielseitiger Befehl, der von Programmierern zur Datenerfassung und -übertragung verwendet wird. Aber wie können Sie cURL für Web Scraping nutzen? Dieser Artikel wird Ihnen den Einstieg erleichtern.
5 min read

In diesem Blogbeitrag beantworten wir folgende Fragen:

Was ist cURL?

cURL ist ein Kommandozeilen-Tool, mit dem Sie Daten über Netzwerkprotokolle übertragen können. Der Name cURL steht für „Client URL“ und kann auch „curl“ geschrieben werden. Dieser beliebte Befehl verwendet die URL-Syntax, um Daten zu und von Servern zu übertragen. Curl basiert auf „libcurl“, einer kostenlosen und einfach zu verwendenden URL-Übertragungsbibliothek auf der Client-Seite.

Warum ist die Verwendung von curl vorteilhaft?

Die Vielseitigkeit dieses Befehls bedeutet, dass Sie curl für eine Vielzahl von Anwendungsfällen verwenden können, darunter:

  • Benutzerauthentifizierung
  • HTTP-Beiträge
  • SSL-Verbindungen
  • Proxy-Unterstützung
  • FTP-Uploads

Der einfachste Anwendungsfall für Curl ist das Herunterladen und Hochladen ganzer Websites mit einem der unterstützten Protokolle.

Curl-Protokolle

Obwohl curl eine lange Liste von unterstützten Protokollen hat, wird standardmäßig HTTP verwendet, wenn Sie kein bestimmtes Protokoll angeben. Hier ist die Liste der unterstützten Protokolle:

cURL-Befehl - Liste der unterstützten Protokolle - dict, file, ftp, ftps, gopher, http, https, imap, imaps, ldap, pop3, stmp, rtsp, scp, sftp, smb, sms, telnet, tftp

Installieren von curl

Der Befehl curl wird in Linux-Distributionen standardmäßig installiert.

Wie können Sie überprüfen, ob Sie curl bereits installiert haben?

1. Öffnen Sie Ihre Linux-Konsole

2. Geben Sie „curl“ ein und drücken Sie „enter“.

3. Wenn Sie curl bereits installiert haben, wird die folgende Meldung angezeigt:

terminal window cURL try -help -manual commands

4. Wenn Sie curl noch nicht installiert haben, sehen Sie die folgende Meldung: „Befehl nicht gefunden“. Wählen Sie dann Ihr Distributionspaket aus und installieren Sie es (mehr dazu weiter unten).

So benutzt man cURL

Die Syntax von Curl ist ziemlich einfach:

command line Curl options url

Wenn Sie z. B. eine Webseite herunterladen möchten, führen Sie einfach webpage.com aus:

curl command line webpage.com

Der Befehl liefert Ihnen dann den Quellcode der Seite in Ihrem Terminalfenster. Denken Sie daran, dass curl standardmäßig HTTP verwendet, wenn Sie kein Protokoll angeben. Unten finden Sie ein Beispiel dafür, wie Sie bestimmte Protokolle definieren können:

ftp cURL command line syntax

Wenn Sie vergessen :// hinzuzufügen, wird curl automatisch das Protokoll ermitteln, das Sie verwenden möchten.

Wir haben kurz über die grundlegende Verwendung des Befehls gesprochen, aber Sie können eine Liste von Optionen auf der curl-Dokumentationsseite finden. Diese Optionen sind die möglichen Aktionen, die Sie mit der URL durchführen können. Wenn Sie eine Option auswählen, teilt sie curl mit, welche Aktion an der angegebenen URL durchgeführt werden soll. Die URL teilt cURL mit, wo es diese Aktion ausführen soll. Dann lässt cURL Sie eine oder mehrere URL auflisten.

Um mehrere URLs herunterzuladen, stellen Sie jeder URL ein -0 gefolgt von einem Leerzeichen voran. Sie können dies in einer einzigen Zeile tun oder für jede URL eine eigene Zeile schreiben. Sie können auch einen Teil einer URL herunterladen, indem Sie die Seiten auflisten. Ein Beispiel:

curl command line for multiple pages on website

 

 Speichern des Downloads

Sie können den Inhalt der URL in einer Datei speichern, indem Sie curl mit zwei verschiedenen Methoden verwenden:

1. -o Methode: Mit dieser Option können Sie einen Dateinamen angeben, unter dem die URL gespeichert werden soll. Diese Option hat die folgende Struktur:

Command line CURL filename

2. -O Methode: Hier brauchen Sie keinen Dateinamen hinzuzufügen, da Sie mit dieser Option die Datei unter dem URL-Namen speichern können. Um diese Option zu verwenden, müssen Sie der URL lediglich ein -O voranstellen.

Wiederaufnahme des Downloads

Es kann vorkommen, dass der Download mittendrin abbricht. In diesem Fall schreiben Sie den Befehl neu und fügen die Option -C am Anfang hinzu:

curl filename as URL

Warum ist curl so beliebt?

Curl ist wirklich das „Schweizer Messer“ unter den Befehlen, das für komplexe Vorgänge entwickelt wurde. Es gibt jedoch auch Alternativen, zum Beispiel „wget“ oder „Kurly“, die für einfachere Aufgaben geeignet sind.

Curl ist bei Entwicklern sehr beliebt, da es für fast jede Plattform verfügbar ist. Manchmal ist es sogar standardmäßig installiert. Das bedeutet, dass die curl-Befehle unabhängig von den Programmen/Arbeitsplätzen, die Sie ausführen, funktionieren sollten.

Wenn Ihr Betriebssystem nicht älter als zehn Jahre ist, ist es wahrscheinlich, dass Sie curl installiert haben. Sie können die Dokumente auch in einem Browser lesen und in der curl-Documentation nachsehen. Wenn Sie eine neuere Version von Windows verwenden, ist curl wahrscheinlich bereits installiert. Wenn nicht, lesen Sie diesen Beitrag auf Stack Overflow, um mehr darüber zu erfahren, wie Sie dies durchführen können.

Web Scraping mit cURL

Profi-Tipp: Halten Sie sich unbedingt an die Regeln einer Website und versuchen Sie auf keinen Fall, auf passwortgeschützte Inhalte zuzugreifen, da dies in den meisten Fällen illegal oder zumindest unerwünscht ist.

Sie können curl verwenden, um den sich wiederholenden Prozess beim Web Scraping zu automatisieren und so mühsame Aufgaben zu vermeiden. Dazu müssen Sie PHP verwenden. Hier ist ein Beispiel, das wir auf GitHub gefunden haben:

web scraping script in php using curl

Wenn Sie curl verwenden, um eine Webseite zu scrapen, gibt es drei Optionen, die Sie verwenden sollten:

  • curl_init($url) -> Initialisiert die Sitzung
  • curl_exec() -> Führt aus
  • Curl_close() -> Schließt
code syntax for scraping a web page using curl

Andere Optionen, die Sie verwenden sollten, sind:

  • Curlopt_url -> Legt die URL fest, die Sie scrapen wollen
setting the URL you want to scrape with cURL
  • Curlopt_returntransfer -> Weist curl an, die gescrapte Seite als Variable zu speichern. (So erhalten Sie genau das, was Sie aus der Seite extrahieren wollten).
curl command line for saving scraped page as a variable

Haben Sie genug von manuellen Web-Scraping-Techniken?

Bright Data hat eine vollautomatische, codefreie Lösung entwickelt, mit der Sie per Mausklick Zugriff auf ganze Websites und bestimmte Datenpunkte erhalten können.

More from Bright Data

Datasets Icon
Get immediately structured data
Access reliable public web data for any use case. The datasets can be downloaded or delivered in a variety of formats. Subscribe to get fresh records of your preferred dataset based on a pre-defined schedule.
Web scraper IDE Icon
Build reliable web scrapers. Fast.
Build scrapers in a cloud environment with code templates and functions that speed up the development. This solution is based on Bright Data’s Web Unlocker and proxy infrastructure making it easy to scale and never get blocked.
Web Unlocker Icon
Implement an automated unlocking solution
Boost the unblocking process with fingerprint management, CAPTCHA-solving, and IP rotation. Any scraper, written in any language, can integrate it via a regular proxy interface.

Ready to get started?