cURL: Was es ist, und wie Sie es für Web Scraping verwenden können

cURL ist ein vielseitiger Befehl, der von Programmierern zur Datenerfassung und -übertragung verwendet wird. Aber wie können Sie cURL für Web Scraping nutzen? Dieser Artikel wird Ihnen den Einstieg erleichtern.
Gal El Al of Bright Data
Gal El Al | Director of Support
23-Dec-2020

In diesem Blogbeitrag beantworten wir folgende Fragen:

Was ist cURL?

cURL ist ein Kommandozeilen-Tool, mit dem Sie Daten über Netzwerkprotokolle übertragen können. Der Name cURL steht für „Client URL“ und kann auch „curl“ geschrieben werden. Dieser beliebte Befehl verwendet die URL-Syntax, um Daten zu und von Servern zu übertragen. Curl basiert auf „libcurl“, einer kostenlosen und einfach zu verwendenden URL-Übertragungsbibliothek auf der Client-Seite.

Warum ist die Verwendung von curl vorteilhaft?

Die Vielseitigkeit dieses Befehls bedeutet, dass Sie curl für eine Vielzahl von Anwendungsfällen verwenden können, darunter:

  • Benutzerauthentifizierung
  • HTTP-Beiträge
  • SSL-Verbindungen
  • Proxy-Unterstützung
  • FTP-Uploads

Der einfachste Anwendungsfall für Curl ist das Herunterladen und Hochladen ganzer Websites mit einem der unterstützten Protokolle.

Curl-Protokolle

Obwohl curl eine lange Liste von unterstützten Protokollen hat, wird standardmäßig HTTP verwendet, wenn Sie kein bestimmtes Protokoll angeben. Hier ist die Liste der unterstützten Protokolle:

cURL-Befehl - Liste der unterstützten Protokolle - dict, file, ftp, ftps, gopher, http, https, imap, imaps, ldap, pop3, stmp, rtsp, scp, sftp, smb, sms, telnet, tftp

Installieren von curl

Der Befehl curl wird in Linux-Distributionen standardmäßig installiert.

Wie können Sie überprüfen, ob Sie curl bereits installiert haben?

1. Öffnen Sie Ihre Linux-Konsole

2. Geben Sie „curl“ ein und drücken Sie „enter“.

3. Wenn Sie curl bereits installiert haben, wird die folgende Meldung angezeigt:

terminal window cURL try -help -manual commands

4. Wenn Sie curl noch nicht installiert haben, sehen Sie die folgende Meldung: „Befehl nicht gefunden“. Wählen Sie dann Ihr Distributionspaket aus und installieren Sie es (mehr dazu weiter unten).

So benutzt man cURL

Die Syntax von Curl ist ziemlich einfach:

command line Curl options url

Wenn Sie z. B. eine Webseite herunterladen möchten, führen Sie einfach webpage.com aus:

curl command line webpage.com

Der Befehl liefert Ihnen dann den Quellcode der Seite in Ihrem Terminalfenster. Denken Sie daran, dass curl standardmäßig HTTP verwendet, wenn Sie kein Protokoll angeben. Unten finden Sie ein Beispiel dafür, wie Sie bestimmte Protokolle definieren können:

ftp cURL command line syntax

Wenn Sie vergessen :// hinzuzufügen, wird curl automatisch das Protokoll ermitteln, das Sie verwenden möchten.

Wir haben kurz über die grundlegende Verwendung des Befehls gesprochen, aber Sie können eine Liste von Optionen auf der curl-Dokumentationsseite finden. Diese Optionen sind die möglichen Aktionen, die Sie mit der URL durchführen können. Wenn Sie eine Option auswählen, teilt sie curl mit, welche Aktion an der angegebenen URL durchgeführt werden soll. Die URL teilt cURL mit, wo es diese Aktion ausführen soll. Dann lässt cURL Sie eine oder mehrere URL auflisten.

Um mehrere URLs herunterzuladen, stellen Sie jeder URL ein -0 gefolgt von einem Leerzeichen voran. Sie können dies in einer einzigen Zeile tun oder für jede URL eine eigene Zeile schreiben. Sie können auch einen Teil einer URL herunterladen, indem Sie die Seiten auflisten. Ein Beispiel:

curl command line for multiple pages on website

 

 Speichern des Downloads

Sie können den Inhalt der URL in einer Datei speichern, indem Sie curl mit zwei verschiedenen Methoden verwenden:

1. -o Methode: Mit dieser Option können Sie einen Dateinamen angeben, unter dem die URL gespeichert werden soll. Diese Option hat die folgende Struktur:

Command line CURL filename

2. -O Methode: Hier brauchen Sie keinen Dateinamen hinzuzufügen, da Sie mit dieser Option die Datei unter dem URL-Namen speichern können. Um diese Option zu verwenden, müssen Sie der URL lediglich ein -O voranstellen.

Wiederaufnahme des Downloads

Es kann vorkommen, dass der Download mittendrin abbricht. In diesem Fall schreiben Sie den Befehl neu und fügen die Option -C am Anfang hinzu:

curl filename as URL

Warum ist curl so beliebt?

Curl ist wirklich das „Schweizer Messer“ unter den Befehlen, das für komplexe Vorgänge entwickelt wurde. Es gibt jedoch auch Alternativen, zum Beispiel „wget“ oder „Kurly“, die für einfachere Aufgaben geeignet sind.

Curl ist bei Entwicklern sehr beliebt, da es für fast jede Plattform verfügbar ist. Manchmal ist es sogar standardmäßig installiert. Das bedeutet, dass die curl-Befehle unabhängig von den Programmen/Arbeitsplätzen, die Sie ausführen, funktionieren sollten.

Wenn Ihr Betriebssystem nicht älter als zehn Jahre ist, ist es wahrscheinlich, dass Sie curl installiert haben. Sie können die Dokumente auch in einem Browser lesen und in der curl-Documentation nachsehen. Wenn Sie eine neuere Version von Windows verwenden, ist curl wahrscheinlich bereits installiert. Wenn nicht, lesen Sie diesen Beitrag auf Stack Overflow, um mehr darüber zu erfahren, wie Sie dies durchführen können.

Web Scraping mit cURL

Profi-Tipp: Halten Sie sich unbedingt an die Regeln einer Website und versuchen Sie auf keinen Fall, auf passwortgeschützte Inhalte zuzugreifen, da dies in den meisten Fällen illegal oder zumindest unerwünscht ist.

Sie können curl verwenden, um den sich wiederholenden Prozess beim Web Scraping zu automatisieren und so mühsame Aufgaben zu vermeiden. Dazu müssen Sie PHP verwenden. Hier ist ein Beispiel, das wir auf GitHub gefunden haben:

web scraping script in php using curl

Wenn Sie curl verwenden, um eine Webseite zu scrapen, gibt es drei Optionen, die Sie verwenden sollten:

  • curl_init($url) -> Initialisiert die Sitzung
  • curl_exec() -> Führt aus
  • Curl_close() -> Schließt
code syntax for scraping a web page using curl

Andere Optionen, die Sie verwenden sollten, sind:

  • Curlopt_url -> Legt die URL fest, die Sie scrapen wollen
setting the URL you want to scrape with cURL
  • Curlopt_returntransfer -> Weist curl an, die gescrapte Seite als Variable zu speichern. (So erhalten Sie genau das, was Sie aus der Seite extrahieren wollten).
curl command line for saving scraped page as a variable

Haben Sie genug von manuellen Web-Scraping-Techniken?

Bright Data hat eine vollautomatische, codefreie Lösung entwickelt, mit der Sie per Mausklick Zugriff auf ganze Websites und bestimmte Datenpunkte erhalten können.

Gal El Al of Bright Data
Gal El Al | Director of Support

Head of Support at Bright Data with a demonstrated history of working in the computer and network security industry. Specializing in billing processes, technical support, quality assurance, account management, as well as helping customers streamline their data collection efforts while simultaneously improving cost efficiency.

Das könnte Sie auch interessieren

What is a web crawler featured image

Was ist ein Webcrawler?

Webcrawler sind ein wichtiger Teil der Infrastruktur des Internets. In diesem Artikel geht es um Folgendes: Webcrawler – Definition Ein Webcrawler ist ein Software-Roboter, der das Internet durchsucht und die gefundenen Daten herunterlädt. Die meisten Webcrawler werden von Suchmaschinen wie Google, Bing, Baidu und DuckDuckGo betrieben. Suchmaschinen wenden ihre Suchalgorithmen auf die gesammelten Daten […]
Search by image API hero image

Screen Scraping im Detail: Ein Leitfaden für alle in der digitalen Welt

Wenn Sie im Bereich SEO und E-Commerce tätig sind, haben Sie wahrscheinlich darüber nachgedacht, wie Sie bequem an die Daten aller Wettbewerber auf dem Markt gelangen können.
Python web scraping guide

Web Scraping mit Python – Schritt-für-Schritt-Anleitung

Lernen Sie, Web Scraping mit Python durchzuführen, um schnell Daten von mehreren Websites zu sammeln und so Zeit und Mühe zu sparen.

Die 9 größten Mythen über Web Scraping

Web Scraping hat einen schlechten Ruf, weil es für böswillige Zwecke verwendet werden kann. Aber Web Scraping kann auch für gute Zwecke eingesetzt werden! In diesem Blogbeitrag räumen wir mit einigen weit verbreiteten Mythen über Web-Scraping auf, damit Sie sehen können, wie diese Technik für gute Zwecke eingesetzt werden kann
Web scraping with PHP

Web Scraping mit PHP: eine Schritt-für-Schritt-Anleitung

Lernen Sie, wie Sie Ihren eigenen einfachen Web Scraper in PHP von Grund auf erstellen und programmieren können.

Anleitung zum Web Scraping mit Java

Sie wissen nicht, welche unterstützenden Tools Sie herunterladen müssen, um eine ideale Java-Umgebung für die Datenerfassung zu schaffen? Ihnen ist nicht klar, wie man Datenpunkte aus HTML extrahiert/parst und dann ins CSV-Format konvertiert? Dieser Beitrag hilft Ihnen, diese Fragen zu klären.
What is alternative data

Was ist Alternative Data und wie ist es zu verwenden?

Investmenthäuser überwachen Daten aus sozialen Medien, Suchmaschinen sowie Daten über die Verbrauchernachfrage und erhalten Echtzeitwarnungen, wenn Unternehmen aus ihrem Portfolio erwähnt werden. So geht’s.
How to set up a proxy server on Windows 10

So richten Sie einen Proxy Server unter Windows 10 ein

Diese Anleitung führt Sie durch die erforderlichen Schritte zur Konfiguration eines Proxy Servers in Windows 10, einschließlich Screenshots sowie wichtiger Tipps zur Auswahl eines Proxys