Wie extrahiert man Text aus HTML mit BeautifulSoup?

Das Extrahieren von Text aus HTML mit BeautifulSoup ist eine gängige und unkomplizierte Aufgabe beim Web-Scraping. BeautifulSoup bietet leistungsstarke Methoden, um HTML-Dokumente effizient zu durchsuchen und Text daraus zu extrahieren.

Hier finden Sie eine Schritt-für-Schritt-Anleitung zum Extrahieren von Text aus HTML mit BeautifulSoup, einschließlich eines Beispielcodes, der Ihnen den Einstieg erleichtert.

So extrahieren Sie Text aus HTML mit BeautifulSoup

Um Text aus HTML mit BeautifulSoup zu extrahieren, müssen Sie:

  1. Installieren Sie BeautifulSoup und Requests.
  2. Laden Sie den HTML-Inhalt, den Sie parsen möchten.
  3. Erstellen Sie ein BeautifulSoup-Objekt zum Parsing des HTML-Codes.
  4. Verwenden Sie BeautifulSoup-Methoden, um Elemente zu finden und Text zu extrahieren.

Nachfolgend finden Sie einen Beispielcode, der zeigt, wie Sie mit BeautifulSoup Text aus HTML extrahieren können.

Beispielcode

      # Schritt 1: Installieren Sie BeautifulSoup und requests
# Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung und führen Sie die folgenden Befehle aus:
# pip install beautifulsoup4
# pip install requests

# Schritt 2: Importieren Sie BeautifulSoup und requests
from bs4 import BeautifulSoup
import requests

# Schritt 3: Laden Sie den HTML-Inhalt.
url = 'http://example.com'
response = requests.get(url)
html_content = response.text

# Schritt 4: Erstellen Sie ein BeautifulSoup-Objekt.
soup = BeautifulSoup(html_content, 'html.parser')

# Schritt 5: Text aus HTML extrahieren
# Beispiel: Text aus einem bestimmten Element extrahieren
element = soup.find('div', class_='example')
text_content = element.get_text()

# Schritt 6: Extrahierten Text ausgeben
print(text_content)

    

Erklärung

  1. Installieren Sie BeautifulSoup und Requests: Verwenden Sie pip, um die Bibliotheken BeautifulSoup und Requests zu installieren. Mit den Befehlen pip install beautifulsoup4 und pip install requests werden diese Bibliotheken aus dem Python Package Index (PyPI) heruntergeladen und installiert.
  2. Importieren von BeautifulSoup und requests: Importiert die BeautifulSoup-Klasse aus dem bs4- Modul und die requests-Bibliothek zum Erstellen von HTTP-Anfragen.
  3. HTML-Inhalt laden: Führt eine HTTP-GET-Anfrage an die angegebene URL durch und lädt den HTML-Inhalt.
  4. Erstellen eines BeautifulSoup-Objekts: Erstellt ein BeautifulSoup-Objekt, indem der HTML-Inhalt und der zu verwendende Parser (html.parser) übergeben werden.
  5. Text aus HTML extrahieren: Verwendet die find-Methode, um ein bestimmtes Element zu finden, und die get_text() -Methode, um den Textinhalt aus diesem Element zu extrahieren.
  6. Extrahierten Text ausgeben: Gibt den aus dem HTML-Element extrahierten Textinhalt aus.

Tipps zum Extrahieren von Text mit BeautifulSoup

  • Gesamtes Dokument: Um Text aus dem gesamten HTML-Dokument zu extrahieren, rufen Sie einfach get_text() für das BeautifulSoup-Objekt selbst auf.
  • HTML-Scraping: Beim HTML-Scraping können Ihnen die Methoden von BeautifulSoup wie find, find_all und select dabei helfen, bestimmte Elemente zu finden, aus denen Sie Text extrahieren möchten.
  • Umgang mit Leerzeichen: Die Methode get_text() enthält Optionen zur Steuerung des Umgangs mit Leerzeichen. Verwenden Sie den Parameter strip=True, um führende und nachfolgende Leerzeichen zu entfernen.

Das Extrahieren von Text aus HTML mit BeautifulSoup ist eine grundlegende Aufgabe beim Web-Scraping, mit der Sie Webdaten effizient bereinigen und verarbeiten können. Für eine effizientere und optimierte Lösung sollten Sie die Web-Scraping-APIs von Bright Data in Betracht ziehen und unseren Datensatz-Marktplatz erkunden, um die Scraping-Schritte zu überspringen und direkt die Endergebnisse zu erhalten. Starten Sie noch heute mit einer Gratis-Testversion!

Mehr als 20,000+ Kunden weltweit schenken uns ihr Vertrauen

Sind Sie bereit, loszulegen?