Archiv-API

Greifen Sie auf die umfangreichen Cache-Sammlungen von Bright Data zu, die eine kostengünstige HTML-Erkennung von Milliarden von Domains bieten. Mit über 1 PB wöchentlichem Datenzuwachs sind Sie immer auf dem neuesten Stand der Dinge. Erleben Sie einen nahtlosen und effizienten Datenabruf wie nie zuvor.

Mit einem Experten sprechen
archive api
  • Entdecken Sie neue Quellen durch filterbare Metadaten
  • Genaue Ausrichtung nach Modalität, Sprache oder Bereich
  • Kuratieren Sie benutzerdefinierte Datensätze für laufenden oder einmaligen Bedarf
  • Optionale Dienstleistungen für Anmerkungen und Beschriftungen verfügbar
Mehr als 20,000+ Kunden weltweit schenken uns ihr Vertrauen

Zugang zu umfangreichen Webdaten

Die Archiv-API von Bright Data bietet laufend aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen.

data collection

Datensammlung

Erfasst kontinuierlich öffentliche Webdaten in Echtzeit und liefert so aktuelle Ergebnisse wie "jetzt".

data volume

Datenmenge

17,5 PB in 8 Monaten gesammelt, die 118 Milliarden Seiten mit ~1 PB und 2 Milliarden einzigartigen URLs pro Woche abdecken.

delivery

Filterung und Bereitstellung

Vollständige Such- und Bereitstellungsplattform - Filter nach Kategorie, Bereich, Sprache, Datum usw. Zustellung über Amazon S3 oder Webhook.
coverage

Abdeckung & Relevanz

Archive API konzentriert sich auf hochwertige, relevante Website-Daten, die auf realen Scraping-Bedürfnissen basieren.

Archiv API Spielplatz

Demo-Webarchiv-Suche
Sieh dir an, wie unsere Webarchiv-API mit Beispiel-Domains funktioniert
Demo-Domains
example.com
Zeitraum
Maximales Alter: 1 Tag
Archiv Ergebnisse
Deine Archiv-Ergebnisse erscheinen hier
Klicke auf "Demo-Archivdaten anzeigen", um Beispielausgaben zu sehen oder Filter zu konfigurieren, um zu suchen
            
          
Code-Beispiele
                
              

Bereit, die Web Archive API zu integrieren?

Starte mit unserer leistungsstarken Web Archive API. Greife auf historische Webdaten mit unserer skalierbaren Infrastruktur zu.

Holen Sie sich ein Stück vom Web mit Archive API

Rufen Sie Daten aus einem Petabyte großen Webarchiv mit Milliarden von HTML-Seiten ab. Entdecken Sie Video- und Bild-URLs, Texte in über 100 Sprachen oder historische SERPs.

structured

Strukturiert & sauber

Vorverarbeitete Daten mit konsistenten Schemata, perfekt für das Training und die Inferenz von KI-Modellen.

code examples

Code-Beispiele

Gebrauchsfertige Python-, Node.js-, cURL-, PHP-, Go-, Java- und Ruby-Snippets zur einfachen Integration in KI-Workflows.

documentation

Dokumentation

Umfassende Leitfäden und Notizbücher für ChatGPT, Claude und andere LLM-Integrationen.

                              # Um eine Suche in unserem Archiv zu starten, verwenden Sie den folgenden Endpunkt /search. Endpunkt: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Autorisierung: Bearer $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
                              
                            
                              # Um den Status einer bestimmten Abfrage zu überprüfen, die gestellt wurde. Endpunkt: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"
                              
                            
                              # Überprüfen Sie den Status aller laufenden Suchen. Endpunkt: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"
                              
                            

Anwendungsfälle der Archiv-API

Verfolgen Sie Inhaltsänderungen und analysieren Sie Trends in Milliarden von historischen Web-Snapshots. Greifen Sie auf 17,5 PB zwischengespeicherte Daten von 40 Millionen Domains zu, um Längsschnittstudien, Wettbewerbsanalysen und Marktanalysen ohne erneutes Crawlen durchzuführen.
Sprechen Sie mit einem Experten
deep research
Erstellen Sie im Handumdrehen umfassende Suchindizes mit vorab gescrapten, JS-gerenderten Inhalten aus Millionen von Domains. Filtern Sie nach Kategorie, Sprache und Datum, um gezielte Indizes zu erstellen und gleichzeitig die Infrastrukturkosten zu senken.
Sprechen Sie mit einem Experten
Trainieren Sie KI-Modelle mit 17,5 PB an sauberen Webdaten. Holen Sie sich frische, qualitativ hochwertige Inhalte aus verschiedenen Quellen. Wöchentlich kommt 1 PB hinzu, die in Formaten geliefert werden, die für Anwendungen für maschinelles Lernen optimiert sind.
Sprechen Sie mit einem Experten
data_enrichment_for_ai_models

Nahtloser Abruf von Daten aus Milliarden von Domains

Ermitteln Sie mühelos URLs für Videos, Bilder, Audiodateien usw. und rufen Sie sie ab.

FLEXIBEL

Infrastruktur auf Unternehmensebene

Die Plattform von Bright Data versorgt über 20,000+ Unternehmen auf der ganzen Welt und bietet eine zuverlässige Betriebszeit von 99,99 % sowie Zugang zu 150M+ echten Nutzer-IPs in 195 Ländern.

SKALIERBAR

Erweiterte Datenermittlung, -erfassung und -verarbeitung

Maximale Kontrolle und Flexibilität ohne Proxy- und Unblocking-Infrastruktur. Scrapen Sie mühelos Daten von jedem geografischen Standort und vermeiden Sie CAPTCHAs und Sperren.

STABIL

Zugeschnitten auf Ihren Arbeitsablauf

Erhalten Sie strukturierte, validierte Daten mit benutzerdefinierten Bereitstellungs- und Integrationsoptionen, einschließlich maßgeschneiderter Berichte, Dashboards und Analysen, für historische Crawls und mehrere Websites.

compliance
KOMPLIZIERT

Branchenführende Konformität

Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen, einschließlich der EU-Datenschutzverordnung, der Datenschutz-Grundverordnung (GDPR) und der CCPA, und respektieren Anfragen zur Ausübung von Datenschutzrechten und mehr.

Beginnen Sie mit dem Sammeln von Webdaten. mühelos.

API-FAQs archivieren

Archive API ist ein riesiges, ständig wachsendes Cache-Repository von Bright Data, das für die Erfassung und Bereitstellung öffentlicher Webdaten in großem Umfang konzipiert wurde.

Es stellt vollständige Webseiten und Metadaten bereit und ist damit ideal für KI-Training, maschinelles Lernen und umfangreiche Datenanalysen.

Im Gegensatz zu herkömmlichen Web-Crawls legt Archive API den Schwerpunkt auf Relevanz, Aktualität und Benutzerfreundlichkeit und bietet Ihnen Zugriff auf die wichtigsten Teile des Internets, die täglich gescannt werden.

Die Archiv-API von Bright Data hat allein in den ersten acht Monaten nach ihrer Einführung bereits 17,5 PB an Daten gesammelt, die 28 Milliarden eindeutige URLs von 40 Millionen Domains umfassen.

Wir fügen weiterhin jede Woche ~1 PB an neuen Daten hinzu, zusammen mit ~2 Milliarden eindeutigen URLs, was Archive zum größten verfügbaren, aktuellen Web-Datenspeicher macht - perfekt für KI und datengesteuerte Anwendungen.

Über unsere Archive API können Sie sofort auf die Daten zugreifen. Mit der API können Sie Datenschnappschüsse aus dem Archiv nahtlos und effizient suchen, abrufen und filtern.

Daten der letzten 3 Tage: Die Bereitstellung dauert zwischen einigen Minuten und einigen Stunden (je nach Größe des Snapshots)

Daten, die älter als 3 Tage sind: Die Verarbeitung und Zustellung dauert zwischen einigen Stunden und bis zu 3 Tagen (je nach Größe des Snapshots)

Das Archiv bietet zwei Bereitstellungsoptionen, um eine nahtlose Integration in Ihre bestehenden Arbeitsabläufe zu gewährleisten:

Amazon S3-Bucket: Lassen Sie sich Ihren Daten-Snapshot direkt in Ihren S3-Bucket liefern.

Webhook: Abruf über Webhook zur Echtzeit-Integration in Ihre Systeme.

Unbedingt! Die Archiv-API ermöglicht die Filterung nach Kategorie, Domänen, Datum, Sprachen und Land, bevor die Daten abgerufen werden, so dass Sie nur das bekommen, was Sie brauchen.