4.6 von fünf Sternen Bewertung auf Trustpilot

4.8 von 5 Sternen Bewertung auf Capterra

Archiv-API

Greifen Sie auf die umfangreichen Cache-Sammlungen von Bright Data zu, die eine kostengünstige HTML-Erkennung von Milliarden von Domains bieten. Mit über 1 PB wöchentlichem Datenzuwachs sind Sie immer auf dem neuesten Stand der Dinge. Erleben Sie einen nahtlosen und effizienten Datenabruf wie nie zuvor.

Mit einem experten sprechen

Entdecken Sie neue Quellen durch filterbare Metadaten
Genaue Ausrichtung nach Modalität, Sprache oder Bereich
Kuratieren Sie benutzerdefinierte Datensätze für laufenden oder einmaligen Bedarf
Optionale Dienstleistungen für Anmerkungen und Beschriftungen verfügbar

Weltweit vertrauen 20,000+ Kunden auf uns.

Zugang zu umfangreichen Webdaten

Die Archiv-API von Bright Data bietet laufend aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen.

Datensammlung

Erfasst kontinuierlich öffentliche Webdaten in Echtzeit und liefert so aktuelle Ergebnisse wie "jetzt".

Datenmenge

17,5 PB in 8 Monaten gesammelt, die 118 Milliarden Seiten mit ~1 PB und 2 Milliarden einzigartigen URLs pro Woche abdecken.

Filterung und Bereitstellung

Vollständige Such- und Bereitstellungsplattform - Filter nach Kategorie, Bereich, Sprache, Datum usw. Zustellung über Amazon S3 oder Webhook.

Abdeckung & Relevanz

Archive API konzentriert sich auf hochwertige, relevante Website-Daten, die auf realen Scraping-Bedürfnissen basieren.

Archiv API Spielplatz

Demo-Webarchiv-Suche

Sieh dir an, wie unsere Webarchiv-API mit Beispiel-Domains funktioniert

Demo-Domains

example.com

Zeitraum

Maximales Alter: 1 Tag

Archiv Ergebnisse

Deine Archiv-Ergebnisse erscheinen hier

Klicke auf "Demo-Archivdaten anzeigen", um Beispielausgaben zu sehen oder Filter zu konfigurieren, um zu suchen

Code-Beispiele

Bereit, die SERP API zu integrieren?

Starte mit unserer leistungsstarken SERP API. Greife auf Echtzeitsuchergebnisse von Google, Bing und mehr zu.

Kostenlos starten Dokumentation Postman

Holen Sie sich ein Stück vom Web mit Archive API

Rufen Sie Daten aus einem Petabyte großen Webarchiv mit Milliarden von HTML-Seiten ab. Entdecken Sie Video- und Bild-URLs, Texte in über 100 Sprachen oder historische SERPs.

Strukturiert & sauber

Vorverarbeitete Daten mit konsistenten Schemata, perfekt für das Training und die Inferenz von KI-Modellen.

Code-Beispiele

Gebrauchsfertige Python-, Node.js-, cURL-, PHP-, Go-, Java- und Ruby-Snippets zur einfachen Integration in KI-Workflows.

Dokumentation

Umfassende Leitfäden und Notizbücher für ChatGPT, Claude und andere LLM-Integrationen.

                              # Um eine Suche in unserem Archiv zu starten, verwenden Sie den folgenden Endpunkt /search. Endpunkt: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Autorisierung: Bearer $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'

                              # Um den Status einer bestimmten Abfrage zu überprüfen, die gestellt wurde. Endpunkt: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"

                              # Überprüfen Sie den Status aller laufenden Suchen. Endpunkt: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"

Anwendungsfälle der Archiv-API

Verfolgen Sie Inhaltsänderungen und analysieren Sie Trends in Milliarden von historischen Web-Snapshots. Greifen Sie auf 17,5 PB zwischengespeicherte Daten von 40 Millionen Domains zu, um Längsschnittstudien, Wettbewerbsanalysen und Marktanalysen ohne erneutes Crawlen durchzuführen.

Sprechen sie mit einem experten

Erstellen Sie im Handumdrehen umfassende Suchindizes mit vorab gescrapten, JS-gerenderten Inhalten aus Millionen von Domains. Filtern Sie nach Kategorie, Sprache und Datum, um gezielte Indizes zu erstellen und gleichzeitig die Infrastrukturkosten zu senken.

Sprechen sie mit einem experten

Trainieren Sie KI-Modelle mit 17,5 PB an sauberen Webdaten. Holen Sie sich frische, qualitativ hochwertige Inhalte aus verschiedenen Quellen. Wöchentlich kommt 1 PB hinzu, die in Formaten geliefert werden, die für Anwendungen für maschinelles Lernen optimiert sind.

Sprechen sie mit einem experten

Nahtloser Abruf von Daten aus Milliarden von Domains

Ermitteln Sie mühelos URLs für Videos, Bilder, Audiodateien usw. und rufen Sie sie ab.

FLEXIBEL

Infrastruktur auf Unternehmensebene

Die Plattform von Bright Data versorgt über 20,000+ Unternehmen auf der ganzen Welt und bietet eine zuverlässige Betriebszeit von 99,99 % sowie Zugang zu 400M+ echten Nutzer-IPs in 195 Ländern.

SKALIERBAR

Erweiterte Datenermittlung, -erfassung und -verarbeitung

Maximale Kontrolle und Flexibilität ohne Proxy- und Unblocking-Infrastruktur. Scrapen Sie mühelos Daten von jedem geografischen Standort und vermeiden Sie CAPTCHAs und Sperren.

STABIL

Zugeschnitten auf Ihren Arbeitsablauf

Erhalten Sie strukturierte, validierte Daten mit benutzerdefinierten Bereitstellungs- und Integrationsoptionen, einschließlich maßgeschneiderter Berichte, Dashboards und Analysen, für historische Crawls und mehrere Websites.

KOMPLIZIERT

Branchenführende Konformität

Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen, einschließlich der EU-Datenschutzverordnung, der Datenschutz-Grundverordnung (GDPR) und der CCPA, und respektieren Anfragen zur Ausübung von Datenschutzrechten und mehr.

Beginnen Sie mit dem Sammeln von Webdaten. mühelos.

Sprechen sie mit einem experten

API-FAQs archivieren

Was ist Archiv-API?

Archive API ist ein riesiges, ständig wachsendes Cache-Repository von Bright Data, das für die Erfassung und Bereitstellung öffentlicher Webdaten in großem Umfang konzipiert wurde.

Es stellt vollständige Webseiten und Metadaten bereit und ist damit ideal für KI-Training, maschinelles Lernen und umfangreiche Datenanalysen.

Im Gegensatz zu herkömmlichen Web-Crawls legt Archive API den Schwerpunkt auf Relevanz, Aktualität und Benutzerfreundlichkeit und bietet Ihnen Zugriff auf die wichtigsten Teile des Internets, die täglich gescannt werden.

Wie viele Daten sind in der Archiv-API von Bright Data verfügbar?

Die Archiv-API von Bright Data hat allein in den ersten acht Monaten nach ihrer Einführung bereits 17,5 PB an Daten gesammelt, die 28 Milliarden eindeutige URLs von 40 Millionen Domains umfassen.

Wir fügen weiterhin jede Woche ~1 PB an neuen Daten hinzu, zusammen mit ~2 Milliarden eindeutigen URLs, was Archive zum größten verfügbaren, aktuellen Web-Datenspeicher macht - perfekt für KI und datengesteuerte Anwendungen.

Wie schnell kann ich auf Archivdaten zugreifen?

Über unsere Archive API können Sie sofort auf die Daten zugreifen. Mit der API können Sie Datenschnappschüsse aus dem Archiv nahtlos und effizient suchen, abrufen und filtern.

Daten der letzten 3 Tage: Die Bereitstellung dauert zwischen einigen Minuten und einigen Stunden (je nach Größe des Snapshots)

Daten, die älter als 3 Tage sind: Die Verarbeitung und Zustellung dauert zwischen einigen Stunden und bis zu 3 Tagen (je nach Größe des Snapshots)

Wie können meine Daten geliefert werden?

Das Archiv bietet zwei Bereitstellungsoptionen, um eine nahtlose Integration in Ihre bestehenden Arbeitsabläufe zu gewährleisten:

Amazon S3-Bucket: Lassen Sie sich Ihren Daten-Snapshot direkt in Ihren S3-Bucket liefern.

Webhook: Abruf über Webhook zur Echtzeit-Integration in Ihre Systeme.

Kann ich die Daten des Archivs so filtern, dass ich nur das bekomme, was ich brauche?

Unbedingt! Die Archiv-API ermöglicht die Filterung nach Kategorie, Domänen, Datum, Sprachen und Land, bevor die Daten abgerufen werden, so dass Sie nur das bekommen, was Sie brauchen.