Wie führt man Parsing von HTML mit BeautifulSoup durch?

Das Parsing von HTML mit BeautifulSoup ist ein unkomplizierter Vorgang, mit dem Sie Daten einfach aus Webseiten extrahieren können. BeautifulSoup ist einer der besten verfügbaren HTML-Parser und daher eine beliebte Wahl für Web-Scraping-Aufgaben.

Hier finden Sie eine Schritt-für-Schritt-Anleitung zum Parsing von HTML mit BeautifulSoup, einschließlich eines Beispielcodes, der Ihnen den Einstieg erleichtert.

So führen Sie Parsing von HTML mit BeautifulSoup aus

Um HTML mit BeautifulSoup zu parsen, müssen Sie:

  1. Installieren Sie BeautifulSoup und den erforderlichen Parser.
  2. Laden Sie den HTML-Inhalt, den Sie parsen möchten.
  3. Erstellen Sie ein BeautifulSoup-Objekt, um den HTML-Code zu parsen.
  4. Verwenden Sie BeautifulSoup-Methoden, um zu navigieren und die gewünschten Daten zu extrahieren.

Nachfolgend finden Sie einen Beispielcode, der zeigt, wie ein HTML-Dokument parsed wird und bestimmte Elemente extrahiert werden können.

Beispielcode

      # Schritt 1: Installieren Sie BeautifulSoup und Requests.
# Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung und führen Sie die folgenden Befehle aus:
# pip install beautifulsoup4
# pip install requests

# Schritt 2: Importieren Sie BeautifulSoup und Requests.
from bs4 import BeautifulSoup
import requests

# Schritt 3: Laden Sie den HTML-Inhalt.
url = 'http://example.com'
response = requests.get(url)
html_content = response.text

# Schritt 4: Erstellen Sie ein BeautifulSoup-Objekt.
soup = BeautifulSoup(html_content, 'html.parser')

# Schritt 5: Bestimmte Elemente extrahieren
# Beispiel: Extrahieren des Titels der Webseite
title = soup.title.string
print(f"Titel: {title}")

# Beispiel: Extrahieren aller Absatztexte
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)
    

Erklärung

  1. Installieren Sie BeautifulSoup und Requests: Verwenden Sie pip, um die Bibliotheken BeautifulSoup und Requests zu installieren. Mit den Befehlen pip install beautifulsoup4 und pip install requests werden diese Bibliotheken aus dem Python Package Index (PyPI) heruntergeladen und installiert.
  2. Importieren von BeautifulSoup und requests: Importiert die BeautifulSoup-Klasse aus dem bs4- Modul und die requests-Bibliothek zum Erstellen von HTTP-Anfragen.
  3. HTML-Inhalt laden: Führt eine HTTP-GET-Anfrage an die angegebene URL durch und lädt den HTML-Inhalt.
  4. Erstellen eines BeautifulSoup-Objekts: Erstellt ein BeautifulSoup-Objekt, indem der HTML-Inhalt und der zu verwendende Parser (html.parser) übergeben werden.
  5. Bestimmte Elemente extrahieren: Zeigt, wie Sie den Titel der Webseite und alle Absatztexte mit BeautifulSoup-Methoden extrahieren können.

Tipps zum Parsing von HTML mit BeautifulSoup

  • Parser-Bibliotheken: BeautifulSoup unterstützt verschiedene Parser. Der integrierte html.parser ist für die meisten Aufgaben ausreichend, aber Sie können auch lxml oder html5lib für anspruchsvollere Anforderungen beim Parsing verwenden. Installieren Sie diese zusätzlichen Parser bei Bedarf mit pip.
  • Navigation: Verwenden Sie die verschiedenen Methoden von BeautifulSoup (wie find, find_all, select usw.), um durch den Parsing-Baum zu navigieren und die gewünschten Daten zu extrahieren.
  • Umgang mit fehlerhaftem HTML: BeautifulSoup ist so konzipiert, dass es fehlerhaftes oder beschädigtes HTML problemlos verarbeitet, wodurch es für das Web-Scraping sehr robust ist.

Wenn Sie dieser Anleitung folgen, können Sie HTML-Dokumente mit BeautifulSoup ganz einfach parsen und die benötigten Daten effizient extrahieren. BeautifulSoup gehört zu den besten verfügbaren HTML-Parsern und macht Ihre Web-Scraping-Aufgaben einfacher und effektiver. Weitere Informationen finden Sie in unserem BeautifulSoup-Web-Scraping-Leitfaden. Oder registrieren Sie sich jetzt für eine kostenlose Testversion unserer Web Scraper API.

Mehr als 20,000+ Kunden weltweit schenken uns ihr Vertrauen

Sind Sie bereit, loszulegen?