Archiv-API
Greifen Sie auf die umfangreichen Cache-Sammlungen von Bright Data zu, die eine kostengünstige HTML-Erkennung von Milliarden von Domains bieten. Mit über 1 PB wöchentlichem Datenzuwachs sind Sie immer auf dem neuesten Stand der Dinge. Erleben Sie einen nahtlosen und effizienten Datenabruf wie nie zuvor.
- Entdecken Sie neue Quellen durch filterbare Metadaten
- Genaue Ausrichtung nach Modalität, Sprache oder Bereich
- Kuratieren Sie benutzerdefinierte Datensätze für laufenden oder einmaligen Bedarf
- Optionale Dienstleistungen für Anmerkungen und Beschriftungen verfügbar
Mehr als 20,000+ Kunden weltweit schenken uns ihr Vertrauen
Zugang zu umfangreichen Webdaten
Die Archiv-API von Bright Data bietet laufend aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen.
Datensammlung
Erfasst kontinuierlich öffentliche Webdaten in Echtzeit und liefert so aktuelle Ergebnisse wie "jetzt".
Datenmenge
17,5 PB in 8 Monaten gesammelt, die 118 Milliarden Seiten mit ~1 PB und 2 Milliarden einzigartigen URLs pro Woche abdecken.
Filterung und Bereitstellung
Abdeckung & Relevanz
Archiv API Spielplatz
Bereit, die Web Archive API zu integrieren?
Holen Sie sich ein Stück vom Web mit Archive API
Rufen Sie Daten aus einem Petabyte großen Webarchiv mit Milliarden von HTML-Seiten ab. Entdecken Sie Video- und Bild-URLs, Texte in über 100 Sprachen oder historische SERPs.
Strukturiert & sauber
Vorverarbeitete Daten mit konsistenten Schemata, perfekt für das Training und die Inferenz von KI-Modellen.
Code-Beispiele
Gebrauchsfertige Python-, Node.js-, cURL-, PHP-, Go-, Java- und Ruby-Snippets zur einfachen Integration in KI-Workflows.
Dokumentation
Umfassende Leitfäden und Notizbücher für ChatGPT, Claude und andere LLM-Integrationen.
# Um eine Suche in unserem Archiv zu starten, verwenden Sie den folgenden Endpunkt /search. Endpunkt: POST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Autorisierung: Bearer $API_KEY"
-H 'Content-Type: application/json'
--data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
# Um den Status einer bestimmten Abfrage zu überprüfen, die gestellt wurde. Endpunkt: GET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "Authorization: Bearer $API_KEY"
# Überprüfen Sie den Status aller laufenden Suchen. Endpunkt: GET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization: Bearer $API_KEY"
Anwendungsfälle der Archiv-API
Nahtloser Abruf von Daten aus Milliarden von Domains
Ermitteln Sie mühelos URLs für Videos, Bilder, Audiodateien usw. und rufen Sie sie ab.

Infrastruktur auf Unternehmensebene
Die Plattform von Bright Data versorgt über 20,000+ Unternehmen auf der ganzen Welt und bietet eine zuverlässige Betriebszeit von 99,99 % sowie Zugang zu 150M+ echten Nutzer-IPs in 195 Ländern.

Erweiterte Datenermittlung, -erfassung und -verarbeitung
Maximale Kontrolle und Flexibilität ohne Proxy- und Unblocking-Infrastruktur. Scrapen Sie mühelos Daten von jedem geografischen Standort und vermeiden Sie CAPTCHAs und Sperren.

Zugeschnitten auf Ihren Arbeitsablauf
Erhalten Sie strukturierte, validierte Daten mit benutzerdefinierten Bereitstellungs- und Integrationsoptionen, einschließlich maßgeschneiderter Berichte, Dashboards und Analysen, für historische Crawls und mehrere Websites.
Branchenführende Konformität
Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen, einschließlich der EU-Datenschutzverordnung, der Datenschutz-Grundverordnung (GDPR) und der CCPA, und respektieren Anfragen zur Ausübung von Datenschutzrechten und mehr.
Beginnen Sie mit dem Sammeln von Webdaten. mühelos.
API-FAQs archivieren
Was ist Archiv-API?
Archive API ist ein riesiges, ständig wachsendes Cache-Repository von Bright Data, das für die Erfassung und Bereitstellung öffentlicher Webdaten in großem Umfang konzipiert wurde.
Es stellt vollständige Webseiten und Metadaten bereit und ist damit ideal für KI-Training, maschinelles Lernen und umfangreiche Datenanalysen.
Im Gegensatz zu herkömmlichen Web-Crawls legt Archive API den Schwerpunkt auf Relevanz, Aktualität und Benutzerfreundlichkeit und bietet Ihnen Zugriff auf die wichtigsten Teile des Internets, die täglich gescannt werden.
Wie viele Daten sind in der Archiv-API von Bright Data verfügbar?
Die Archiv-API von Bright Data hat allein in den ersten acht Monaten nach ihrer Einführung bereits 17,5 PB an Daten gesammelt, die 28 Milliarden eindeutige URLs von 40 Millionen Domains umfassen.
Wir fügen weiterhin jede Woche ~1 PB an neuen Daten hinzu, zusammen mit ~2 Milliarden eindeutigen URLs, was Archive zum größten verfügbaren, aktuellen Web-Datenspeicher macht - perfekt für KI und datengesteuerte Anwendungen.
Wie schnell kann ich auf Archivdaten zugreifen?
Über unsere Archive API können Sie sofort auf die Daten zugreifen. Mit der API können Sie Datenschnappschüsse aus dem Archiv nahtlos und effizient suchen, abrufen und filtern.
Daten der letzten 3 Tage: Die Bereitstellung dauert zwischen einigen Minuten und einigen Stunden (je nach Größe des Snapshots)
Daten, die älter als 3 Tage sind: Die Verarbeitung und Zustellung dauert zwischen einigen Stunden und bis zu 3 Tagen (je nach Größe des Snapshots)
Wie können meine Daten geliefert werden?
Das Archiv bietet zwei Bereitstellungsoptionen, um eine nahtlose Integration in Ihre bestehenden Arbeitsabläufe zu gewährleisten:
Amazon S3-Bucket: Lassen Sie sich Ihren Daten-Snapshot direkt in Ihren S3-Bucket liefern.
Webhook: Abruf über Webhook zur Echtzeit-Integration in Ihre Systeme.
Kann ich die Daten des Archivs so filtern, dass ich nur das bekomme, was ich brauche?
Unbedingt! Die Archiv-API ermöglicht die Filterung nach Kategorie, Domänen, Datum, Sprachen und Land, bevor die Daten abgerufen werden, so dass Sie nur das bekommen, was Sie brauchen.