Wie man Amazon CAPTCHA für Web Scraping umgeht

In diesem Blog-Beitrag werden Sie sehen:

Was Amazon CAPTCHA ist und wie es funktioniert
Drei verschiedene Ansätze zur Umgehung des Systems
Ein vollständiger Vergleich dieser Techniken

Fangen wir an!

Amazon CAPTCHA: Einführung

Bevor Sie lernen, wie Sie es umgehen können, sollten Sie verstehen, was Amazon CAPTCHA ist und warum es auf bestimmten Seiten erscheint.

Definition

Amazon CAPTCHA ist eine Anti-Bot-Maßnahme, die erscheint, wenn Sie Amazon-Seiten mit einem Automatisierungsskript besuchen oder automatisierte Interaktionen auf der Website durchführen. In den meisten Fällen erscheint es als einfaches textbasiertes CAPTCHA, bei dem Sie die auf dem Bildschirm angezeigten Zeichen eingeben müssen:

Die obige Herausforderung mag einfach erscheinen, aber sie reicht aus, um die meisten E-Commerce-Web-Scraping-Skripte zu stoppen. Die gute Nachricht ist, dass es sich nicht um das fortschrittlichste CAPTCHA auf dem Markt handelt, und es gibt definitiv Möglichkeiten, es zu umgehen.

Wenn es gezeigt wird

Hier ist der knifflige Teil… Amazon CAPTCHA erscheint nicht unter einer festen Anzahl von Szenarien oder Browser-Konfigurationen. Manchmal taucht es auf, manchmal aber auch nicht.

Basierend auf unseren Tests sind die häufigsten Szenarien, die das CAPTCHA auslösen, wenn Automatisierungstools wie Selenium, Puppeteer und Playwright verwendet werden:

Direktes Aufrufen einer Amazon-Produktseite
Durchführen einer automatischen Suche
Versuch, sich anzumelden oder zu registrieren

Dennoch ist es wichtig zu beachten, dass keine dieser Aktionen eine CAPTCHA-Abfrage garantiert. Auch wenn Sie denken, dass dieses Verhalten eine gute Sache ist, ist es das nicht! Es kann Ihnen vorgegaukelt werden, dass Ihr Amazon Scraper perfekt funktioniert – nur wird er plötzlich ohne ersichtlichen Grund blockiert.

Ein einfaches Selenium-Skript wie das folgende kann beispielsweise ohne Probleme funktionieren, oder es kann ein CAPTCHA auslösen:

# pip install selenium

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

# Configure the browser to launch in headless mode
options = Options()
options.add_argument("--headless")
# Initialize the WebDriver to control Chrome
driver = webdriver.Chrome(service=Service(),options=options)

# Connect to the target page (Amazon Kindle product page)
driver.get("https://www.amazon.com/Amazon-Kindle/dp/B0CNV9F72P")

# Take a screenshot of the entire page
driver.save_screenshot("product-page.png")

# Additional scraping logic...

# Release the driver resources
driver.quit()

Wenn das Skript erfolgreich ausgeführt wird, wird dieser Screenshot angezeigt:

Stattdessen wird es bei erfolglosen Versuchen produziert:

Die unvorhersehbare Natur des CAPTCHA-Erscheinungsbildes macht es schwierig, eine zuverlässige Automatisierungslogik zu entwickeln, die die Herausforderung konsequent auslöst. Aus diesem Grund ist es auch schwer, es zu studieren. Glücklicherweise bedeutet das nicht, dass es unmöglich ist, das CAPTCHA zu umgehen.

Zeit zu lernen, wie es geht!

Umgehung des Amazon CAPTCHA: 3 Techniken

In diesem Kapitel werden Sie drei verschiedene Ansätze zum Umgang mit dem Amazon CAPTCHA kennenlernen:

Verwendung eines Stealth-Browsers
Einsatz von AI
Einen CAPTCHA-Löser verwenden

Weitere Methoden finden Sie in unserem Leitfaden zur Umgehung von CAPTCHAs in Python.

Lasst uns eintauchen!

Ansatz 1: Verwendung eines Stealth-Browsers

Wie oft sind Sie beim Surfen auf Amazon schon auf ein CAPTCHA gestoßen? Die Chancen stehen gut, dass Sie nur selten eines gesehen haben – oder überhaupt nie. Dies deutet darauf hin, dass echte menschliche Nutzer nicht wesentlich von Amazons Anti-Bot- und Anti-Scraping-Systemen betroffen sind.

Wie in den meisten Szenarien ist Vorbeugung besser als Schadensbegrenzung. Das Ziel ist hier nicht, das CAPTCHA zu lösen, sondern zu vermeiden, dass es überhaupt ausgelöst wird. Und wie? Indem Sie die Automatisierungslogik Ihres Browsers so konfigurieren, dass sie bei der Interaktion mit den Amazon-Webseiten einen echten menschlichen Benutzer so gut wie möglich imitiert.

Das Ziel kann durch die Verwendung von Browsern mit Stealth-Plugins erreicht werden, die automatisierungsbezogene Browsereinstellungen ändern, um Lecks zu verhindern und die Bot-Erkennung zu reduzieren. Einige beliebte Tools für diesen Zweck sind:

SeleniumBase: Ein Python-basiertes Automatisierungs-Framework mit eingebauten Stealth-Fähigkeiten, um die Bot-Erkennung in Selenium zu umgehen.
Playwright Stealth: Ein Playwright Extra-Plugin, das die Browser-Einstellungen ändert, um die Erkennung durch Anti-Bot-Systeme zu umgehen.
Puppeteer-Tarnkappe: Ein Puppeteer Extra-Plugin, das die Fingerabdrücke des Browsers so verändert, dass sie menschlicher wirken.
Unentdeckter Chromedriver: Ein gepatchter Selenium WebDriver, der hilft, die Erkennung durch Anti-Bot-Mechanismen zu umgehen.

In diesem Abschnitt werden wir uns auf SeleniumBase konzentrieren, da es perfekt mit Python funktioniert. Sie können aber auch einfach eine der anderen Optionen verwenden.

Um SeleniumBase zu installieren, führen Sie den folgenden Befehl aus:

pip install seleniumbase

Dann können Sie das vorherige Selenium-Skript ändern, um SeleniumBase wie unten beschrieben zu verwenden:

from seleniumbase import Driver  

# Initialize the SeleniumBase driver
driver = Driver(uc=True)  # Enables stealth mode  

# Connect to the target Amazon page  
driver.get("https://www.amazon.com/Amazon-Kindle/dp/B0CNV9F72P")  

# Take a screenshot of the entire page  
driver.save_screenshot("product-page.png")  

# Additional scraping logic...  

# Release the driver resources  
driver.quit()

Großartig! Die Wahrscheinlichkeit, auf Amazon CAPTCHAs zu stoßen, hat sich deutlich verringert.

Ansatz Nr. 2: Lösung mit KI

Wenn Sie sich eine Sammlung von Amazon CAPTCHAs ansehen, ist es schwer zu glauben, dass KI nicht in der Lage wäre, sie zu lösen:

Eine Reihe von Amazon CAPTCHA-Herausforderungen

Schließlich scheinen einfache Texterkennungsaufgaben im Vergleich zu den fortschrittlicheren und komplexeren CAPTCHAs, die auf dem heutigen Markt zu finden sind, veraltet zu sein:

Die Idee ist also die folgende:

Machen Sie einen Screenshot von der CAPTCHA-Seite
Füttern Sie ChatGPT oder ein anderes AI-Modell damit
Erhalten Sie die Antwort der KI und verwenden Sie sie, um das CAPTCHA zu lösen.

Wenn Sie den CAPTCHA-HTML-Code untersuchen, werden Sie sehen, dass das Texteingabefeld mit dem CSS-Selektor .a-span12 ausgewählt werden kann. Mit diesen Informationen können wir Amazon CAPTCHA mit Hilfe von AI mit dem folgenden Ansatz umgehen:

import os
import time
import base64
from openai import OpenAI
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

def solve_amazon_captcha(driver, timeout=5):
    client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
    captcha_elements = driver.find_elements(By.CSS_SELECTOR, "a-span12")

    # If the CAPTCHA has been detected
    if len(captcha_elements) > 0:
        print("CAPTCHA detected!")

        # Take a screenshot of the CAPTCHA page
        driver.maximize_window()
        screenshot_path = "captcha.png"
        driver.save_screenshot(screenshot_path)

        print("Attempting to solve the CAPTCHA...")

        # Feed the screenshot to the AI for CAPTCHA solving
        base64_image = encode_image(screenshot_path)
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": "Extract the text from this CAPTCHA. Return only the text."},
                        {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64_image}"}},
                    ],
                }
            ],
        )

        # Get the CAPTCHA text
        captcha_text = response.choices[0].message.content.strip()

        # Select teh CAPTCHA input text and fill it out
        # with the AI generated text
        input_element = captcha_elements[0]
        input_element.send_keys(captcha_text, Keys.ENTER)

        print("CAPTCHA solved!")
        print(f"Wait up to {timeout} seconds for page reload...")

        # Wait up to 5 seconds for a page reload
        time.sleep(timeout)

Damit die Funktion solve_amazon_captcha() funktioniert, installieren Sie die openai-Abhängigkeit:

pip install openai

Setzen Sie außerdem Ihren OpenAI-API-Schlüssel als globale Umgebungsvariable namens OPENAI_API_KEY.

So können Sie die KI-gestützte CAPTCHA-Lösungsfunktion aufrufen:

driver = webdriver.Chrome()
driver.get("https://www.amazon.com/Amazon-Kindle/dp/B0CNV9F72P")

solve_amazon_captcha(driver)

driver.quit()

Nun wird Ihr Skript das CAPTCHA so lösen, wie es ein menschlicher Benutzer tun würde.

Einen ähnlichen Ansatz mit Gemini finden Sie im Genaptcha-Projekt auf GitHub.

Ansatz #3: Integrieren Sie einen CAPTCHA-Löser

Um die höchste Genauigkeit zu erreichen und gleichzeitig die Aufrufe an KI-Modelle zu minimieren – was aufgrund des Token-Verbrauchs wegen der Bilder kostspielig sein kann -, sollten die beiden oben genannten Lösungen kombiniert werden:

Reduzieren Sie die Häufigkeit von CAPTCHAs auf Amazon
Lösen Sie sie nur, wenn sie auftauchen

Der hybride Ansatz bringt jedoch seine eigenen Herausforderungen mit sich:

Zusätzliche Abhängigkeiten: Sie benötigen ein Stealth-Browser-Automatisierungstool, den OpenAI-Client und die richtigen Umgebungskonfigurationen.
Instabilität: Stealth-Plugins können heute noch funktionieren, aber morgen schon unwirksam sein, weil die Bot-Entwickler und die Anti-Bot-Lösungen ständig miteinander kämpfen. Aus diesem Grund ist es wichtig, dass Sie Ihre Bibliotheken auf dem neuesten Stand halten. Außerdem liefern LLM-Modelle manchmal inkonsistente Ergebnisse, was ein zusätzliches Problem darstellen kann. Auch kämpft die KI mit dem Lösen komplexerer CAPTCHAs, die Amazon in naher Zukunft wahrscheinlich einführen wird.
Wiederholungslogik erforderlich: Um sicherzustellen, dass das CAPTCHA tatsächlich gelöst wird, müssen Sie einen Wiederholungsmechanismus für den Fall implementieren, dass die KI fehlschlägt.
Langsamkeit: KI führt zu erheblichen Verzögerungen bei der Verarbeitung. Außerdem verlangsamt das Warten auf das Erscheinen und Verschwinden des CAPTCHA den Automatisierungs-/Scraping-Prozess weiter.
Wartungsaufwand: Sie sind dafür verantwortlich, dass alle gewählten Technologien ordnungsgemäß konfiguriert sind und auch im Laufe der Zeit funktionieren.

Wäre es nicht einfacher, einfach einen CAPTCHA-Löser zu verwenden? Auf jeden Fall, vor allem, wenn diese Funktion direkt in den Headless-Browser integriert ist, der von dem Browser-Automatisierungstool Ihrer Wahl gesteuert wird.

Genau das ist die Erfahrung, die Scraping Browser bietet. Es handelt sich um einen Cloud-basierten Browser, der für das Web-Scraping optimiert ist. Er wurde für maximale Leistung entwickelt und macht die Verwaltung der Infrastruktur überflüssig. Dieser spezialisierte Browser bietet IP-Rotation, automatische Wiederholungsversuche, fortschrittliche Anti-Bot-Bypass-Mechanismen und – natürlich – integrierte CAPTCHA-Lösungsfunktionen.

Wie Sie ihn wie jeden anderen Browser in Selenium, Playwright und Puppeteer integrieren können, erfahren Sie in unseren Dokumenten.

Der beste Weg, das Amazon CAPTCHA zu knacken

Dies ist eine Zusammenfassung der in diesem Artikel untersuchten Amazon CAPTCHA-Techniken:

Näherung	CAPTCHA-Umgehung	CAPTCHA-Auflösung	Wartung	Manuelle Logik	Kosten
Stealth-Browser	✔️	❌	Erforderlich	Erforderlich	Kostenlos
AI Lösen	❌	✔️	Erforderlich	Erforderlich	💲
CAPTCHA-Löser	✔️	✔️	Nicht erforderlich, da die Lösung in der Cloud läuft	Nicht erforderlich, da alle Funktionen in das Tool integriert sind	💲

Nachstehend finden Sie eine Übersicht über ihre Stärken und Schwächen.

Ansatz 1: Verwendung eines Stealth-Browsers

👍 Vorteile:

Frei und Open-Source

👎 Kons:

CAPTCHA-Umgehung, nicht Umgehung
Verlässt sich auf gepatchte Browser, die instabil sein können
Erfordert laufende Wartung

Ansatz Nr. 2: Lösung mit KI

👍 Vorteile:

Kann textbasierte CAPTCHAs effektiv lösen

👎 Kons:

Inkonsistente Ergebnisse und unwirksam gegen komplexe CAPTCHAs
Die Erkennung des CAPTCHA auf der Seite kann schwierig sein
KI-Anrufe sind mit Kosten verbunden

Ansatz #3: Integrieren Sie einen CAPTCHA-Löser

👍 Vorteile:

Äußerst wirksam
Funktioniert nahtlos mit jedem Browser-Automatisierungstool oder HTTP-Client
Keine Wiederholungslogik, Browserkonfiguration oder andere manuelle Arbeiten erforderlich

👎 Kons:

Premium-Dienstleistung

Schlussfolgerung

In diesem Blogbeitrag haben Sie erfahren, warum Amazon Sie mit einem CAPTCHA stoppen könnte und wie Sie es in Ihrem Scraping-Skript behandeln können. Leider ist das Erscheinungsbild von CAPTCHAs uneinheitlich, was es schwierig macht, es zu studieren. Glücklicherweise gibt es einige Techniken, um CAPTCHAs zu vermeiden oder zu umgehen, und hier stellen wir die drei nützlichsten davon vor.

Wie bereits erwähnt, ist der effektivste Ansatz die Verwendung des Scraping Browsers von Bright Data, der über einen integrierten CAPTCHA-Löser verfügt und sich nahtlos in Selenium, Playwright und Puppeteer integrieren lässt.

Wenn Sie nach einer noch einfacheren Lösung suchen, sollten Sie unsere anderen Optionen in Betracht ziehen:

Amazon CAPTCHA-Löser: Ein spezieller CAPTCHA-Löser für Amazon, der von unserem Web Unlocker unterstützt wird.
Amazon Scraper: Ein Scraping-Endpunkt, der speziell für Amazon-Seiten entwickelt wurde. Rufen Sie ihn einfach auf und erhalten Sie die Daten, die Sie benötigen, bereits in dem von Ihnen bevorzugten Format geparst.
Amazon-Datensätze: Gebrauchsfertige Datensätze mit den Daten, an denen Sie interessiert sind. Kein Scraping erforderlich.

Erstellen Sie noch heute ein kostenloses Bright Data-Konto und erkunden Sie unsere Scraping-Lösungen und Datensätze in einer kostenlosen Testversion.

Vertrieb kontaktieren Gratis testen