So scrapen Sie Google-Bilder mit Python

Eine Schritt-für-Schritt-Anleitung zum Scrapen von Google-Bildern mit Python und Selenium, von der Einrichtung bis zum Speichern von Bildern.
15 min read
How to Scrape Google Images blog image

Google-Bilder ist eine der schwierigeren Websites zum Scrapen im Internet. Es blockiert zwar nicht explizit Scraper, aber Sie müssen wirklich für die Daten arbeiten … Sie müssen es wollen!

Von dynamischen CSS-Selektoren bis hin zur Base64-Kodierung ähnelt das Scrapen von Google-Bildern eher dem Lösen eines Puzzles als dem Scrapen von normalem HTML.

Voraussetzungen

Um mit uns Google-Bilder scrapen zu können, sollten Sie ein Grundverständnis von Python und Selenium haben. Sie müssen sicherstellen, dass Selenium installiert ist. Wir empfehlen Ihnen, bei Bedarf mehr über Web-Scraping mit Python und Selenium zu lernen.

Stellen Sie zunächst sicher, dass Sie ChromeDriver und Chrome installiert haben. Die aktuellste Version können Sie hier herunterladen.

Stellen Sie beim Herunterladen von ChromeDriver sicher, dass Sie eine Version erhalten, die mit Ihrer Chrome-Version übereinstimmt.

Sie können Ihre Chrome-Version mit dem folgenden Befehl überprüfen.

google-chrome --version

Die Ausgabe sollte in etwa so aussehen, wie sie unten zu sehen ist.

Google Chrome 131.0.6778.139 

Sobald Sie diese erhalten haben, können Sie Selenium mit pip installieren.

pip install selenium

Was zu scrapen

Wir können uns nicht einfach kopfüber in den Code stürzen. Wir müssen eine bessere Vorstellung davon bekommen, was wir scrapen und wie wir es extrahieren. Wie wir bereits sagten, ist das Scrapen von Google-Bilder wie das Lösen eines Puzzles.

Schauen wir uns eines der Bilder von Google an. Dieses Bild ist in ein benutzerdefiniertes HTML-Tag namens g-img eingebettet. Wir müssen alle diese g-img-Elemente finden.

Überprüfung eines Bildes auf Google-Bilder

Sobald wir alle g-img-Tags gefunden haben, müssen wir ihre img-Elemente extrahieren. Eines davon können Sie unten sehen.

Überprüfung des img-Elements

Wenn Sie sich das Bild genau angeschaut haben, sollte Ihnen etwas sehr Merkwürdiges aufgefallen sein. Das src ist eine bizarre Folge von scheinbar zufälligen Zeichen.



Der Anfang dieser Zeichenkette enthält den Schlüssel zu allem:  sagt uns, dass dies eine JPEG-Datei ist. base64 sagt uns, dass die Datei mit Base64 kodiert ist. Wenn wir diese Zeichenkette dekodieren, erhalten wir tatsächlich das Binärformat des Bildes. Wir sind nicht in der Lage, die wahre Quelle des Bildes zu ermitteln, da sich die Binärdatei in der Webseite befindet. Wir können jedoch diese Binärdatei in eine Datei schreiben und das Bild neu erstellen.

Scrapen von Google-Bildern mit Python

Da wir nun wissen, was wir möchten, ist es an der Zeit, unseren Scraper zu programmieren. In den nächsten Abschnitten setzen wir den Scraper zusammen und gehen genau durch, was der Code macht.

Erste Schritte

Legen Sie eine neue Python-Datei an. Wir beginnen mit unseren grundlegenden Importen und der Struktur.

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()

"""
Our actual scraping logic will go here
"""


if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Wir importieren webdriver und By von Selenium. webdriver wird zur Steuerung unseres Browsers verwendet. By wird verwendet, um Items auf der Seite zu lokalisieren.
  • Wir verwenden sleep, um unseren Scraper für eine gewisse Zeit zu pausieren. Wenn wir zum Beispiel möchten, dass der Scraper eine Sekunde lang wartet, würden wir sleep(1) verwenden.
  • Wie Sie vielleicht schon vermutet haben, wird base64 unsere Bildbinärdateien dekodieren.
  • Path wird verwendet, um unsere Bilder in einen Ordner zu schreiben, der unsere Ergebnisse enthält.
  • options = webdriver.ChromeOptions() ermöglicht uns, benutzerdefinierte Einstellungen mit Selenium zu verwenden. In erster Linie dient dies dazu, Selenium im Headless-Modus auszuführen. Der Headless-Modus ermöglicht uns, den Scraper auszuführen, ohne den eigentlichen Browser auf dem Rechner zu rendern. Das spart wertvolle Ressourcen.

Scrapen von Google-Bildern

Als Nächstes werden wir unsere Scraping-Funktion schreiben. Der folgende Code enthält unseren gesamten Scraper. Achten Sie genau auf scrape_images().

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()


def scrape_images(keyword, batch_size, headless=True):
    if headless:
        options.add_argument("--headless")

    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)

    result_count = 0

    driver = webdriver.Chrome(options=options)
    driver.get(f"https://www.google.com/search?q={formatted_keyword}")
    sleep(1)

    list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
    list_items[1].click()

    while result_count < batch_size:
        driver.execute_script("window.scrollBy(0, 300);")
        sleep(1)

        img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
        for img_tag in img_tags:
            src = img_tag.get_attribute("src")
            if not src or not src.startswith("data:image/"):
                continue

            base64_binary = src.split("base64,")[-1]
            mime_type = src.split(";")[0].split(":")[1]
            file_extension = mime_type.split("/")[-1]
            if file_extension == "gif":
                continue
            
            alt_text = img_tag.get_attribute("alt") or "image"
            filename = f"{alt_text}-{result_count}.{file_extension}"

            image_binary = base64.b64decode(base64_binary)
            output_path = output_folder.joinpath(filename)
            
            with open(output_path, "wb") as file:
                file.write(image_binary)
            result_count+=1
            print(f"Saved: {filename}")
            
    driver.quit()

if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Wir setzen standardmäßig headless auf True.  Wenn der Benutzer den Wert auf False setzt, wird ein tatsächlicher Browser gestartet, den Sie auf dem Bildschirm sehen können. Dies ist für Debugging-Zwecke nützlich.
  • Wir erstellen ein formatted_keyword und einen folder_name, indem wir Leerzeichen von unserem eigentlichen Schlüsselwort entfernen. So können wir die Dateien ohne Probleme speichern.
  • Wir starten unseren Browser mit webdriver.Chrome(options=options).
  • driver.get(f"https://www.google.com/search?q={formatted_keyword}") führt uns zu den Google-Suchergebnissen für unser Schlüsselwort.
  • Jetzt müssen wir auf die Registerkarte Bilder klicken. Wir tun dies, indem wir alle div-Elemente mit der Rolle listitem finden. list_items[1].click() klickt auf das zweite Item, die Registerkarte Bilder.
  • Wir verwenden eine while-Schleife, um unseren Scraping-Code immer wieder auszuführen, bis wir alle gewünschten Bilder gefunden haben.
  • driver.execute_script("window.scrollBy(0, 300);") führt JavaScript aus, um die Seite um 300 Pixel nach unten zu scrollen. Nach dem Scrollen führen wir sleep() für eine Sekunde aus, während der Inhalt geladen wird.
  • driver.find_elements(By.CSS_SELECTOR, "g-img > img") wird verwendet, um alle img-Tags zu finden, die innerhalb eines g-img verschachtelt sind.
  • Als nächstes werden die gefundenen img-Items iterieren.
  • Wenn das img nicht mit data:image/ beginnt, verwenden wir continue, um es zu überspringen. Andernfalls ziehen wir sein Attribut src .
  • Wir verwenden eine grundlegende Zeichenfolgenaufteilung, um die codierte Binärdatei und die Dateierweiterung (JPEG, PNG usw.) zu extrahieren. Wenn die Erweiterung ein GIF ist, wird sie übersprungen. Aus irgendeinem Grund werden GIFs nicht angezeigt, wenn wir sie in eine Datei schreiben.
  • base64.b64decode(base64_binary) dekodiert unser Bild in ein maschinenlesbares Binärformat.

Wenn Sie den Code ausführen, wird ein neues Ordner-Pop-up in Ihrem Projektordner angezeigt. Er sollte voll von Bildern sein.

Der Ergebnisordner mit den .png-Dateien

Erwägen Sie die Verwendung von Bright Data

Unsere SERP-API parst die Google-Bilder, damit Sie das nicht tun müssen. Sie findet sogar die Bildmetadaten, sodass unsere Bilder richtige Namen haben werden. Natürlich ist die API vollständig skalierbar und kann eine enorme Anzahl von Anfragen bewältigen.

Melden Sie sich zunächst für unsere SERP-API an.

Wenn Sie bereit sind, schließen Sie die Erstellung der Zone ab.

Fertigstellung der Erstellung der Zone

Unter Zugangsdetails sehen Sie Ihre Anmeldedaten.

Ihre SERP-API-Anmeldedaten

Kopieren Sie den folgenden Code und fügen Sie ihn in eine Python-Datei ein. Ersetzen Sie die Anmeldedaten in proxy_auth durch Ihre eigenen, und Sie sind startklar.

import requests
import base64
from pathlib import Path
import json

proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"


def scrape_images(keyword):
    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"serp-results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)
    url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"

    response = requests.get(
        url,
        proxies={"http": proxy_url, "https": proxy_url},
        verify=False
    )

    images = response.json()["images"]

    result_count = 0
    for image in images:    
        image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
        title = image["title"].replace(" ", "-").replace("/", "").strip(".")
        file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
        if file_extension == "gif":
            continue
        filename = f"{title}.{file_extension}"

        with open(output_folder.joinpath(filename), "wb") as file:
            file.write(image_binary)
            print(f"Saved: {filename}")

if __name__ == "__main__":
    scrape_images("linux penguin")

Wenn Sie den Code ausführen, erhalten Sie wieder eine Reihe von Bildern, aber diesmal haben sie alle Namen.

Die Bildergebnisse über die SERP-API

Fazit

Zusammenfassend lässt sich sagen, dass das Scrapen von Bildern von Google ein bisschen so ist, als würde man versuchen, ein Puzzle ohne alle Teile zu lösen. Unsere Google-Bilder-API findet die Metadaten und macht Selenium überflüssig!

Wenn Sie Bilder aus anderen Quellen scrapen müssen, haben wir auch eine Instagram-Bilder-API, Shutterstock-Scraper und verschiedene strukturierte Datensätze. Melden Sie sich jetzt an und finden Sie das perfekte Produkt für Ihre Bedürfnisse, einschließlich einer kostenlosen Testversion!

Keine Kreditkarte erforderlich