Data Firehose & Web Archive Pricing

Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.

DATA FIREHOSE (LAST 24 HRS)
$0.2/ 1K HTMLs
Sprich mit einem Datenexperten
Enthält:
  • Fresh data - up to 24 hours
  • ~1 hour delivery (depending on snapshot size)
  • API-Zugang mit erweiterten Filtern (Domains, Kategorien, Daten, Sprachen, Länder, Pfade)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook)
  • 24/7 Unterstützung
  • Mengenrabatte für groß angelegte Datenbedürfnisse
Best for: Continuously refreshed data pipelines
Common use case:
  • AI search & analytics pipelines requiring up-to-date content
  • Aggregated Web Unlocker and SERP cache - updated hourly
  • Continuous web monitoring and indexing
Archived data (Over 24 hrs)
$1/ 1K HTMLs
Sprich mit einem Datenexperten
Enthält:
  • Historical data - Over 24 hours
  • Minimum 2 days delivery (depending on snapshot size)
  • API-Zugang mit erweiterten Filtern (Domains, Kategorien, Daten, Sprachen, Länder, Pfade)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook
  • 24/7 Unterstützung
  • Mengenrabatte für groß angelegte Datenbedürfnisse
Best for: Historical data at scale
Common use case:
  • AI model training data backfilling at scale
  • Reproducible historical snapshots for research & indexing
  • Auditing or analyzing past web content across domains
* Mengenrabatte für große Datenmengen, langfristige Verpflichtungen oder mehrere Scraper-Projekte verfügbar
Wir akzeptieren diese Zahlungsmethoden:

Customer favorite features

  • Speicher im Petabyte-Maßstab
  • Vollständige HTML-Seiten und Metadaten
  • Erweiterte Filterung und Suche
  • Täglich ~2,5 PB hinzugefügt
  • Text, Bilder, Videos und Audio
  • Flexible Bereitstellungsoptionen
  • Täglich 5T+ Text-Token hinzugefügt
  • API-Erstzugang
  • KI-bereite Daten
  • Täglich 2,5 Mrd.+ Bild/Video-URLs hinzugefügt
  • Kein Wartungsaufwand
  • 99,99 % Verfügbarkeit + 24/7-Support
STREAMLINED

Zahlung über AWS Marketplace

Nutzen Sie Ihre Käufe zur Erfüllung von AWS-Verpflichtungen und profitieren Sie von optimierter Beschaffung und Rechnungsstellung an einem Ort. Genießen Sie die strengen Validierungs- und Compliance-Prüfungen von AWS für Partner.

COMPLIANT

Branchenführende Compliance

Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen einschließlich des EU-Datenschutzrahmens, der DSGVO und des CCPA und respektieren Anfragen zur Ausübung von Datenschutzrechten.

Nicht sicher, was Sie brauchen?

Archive API FAQ

Data Firehose liefert einen kontinuierlichen Echtzeit-Stream erfasster Webdaten (ca. 1 Mrd. täglich erfasst) – ideal für aktives Monitoring, Preisüberwachung und kontinuierliche KI-Trainingspipelines. Web Archive bietet Zugang zu einem umfangreichen historischen Repository mit über 624 Mrd. gecachten Webseiten (90 PB+), perfekt für Tiefenrecherche, Backtesting und Längsschnittanalysen. Viele Unternehmensteams nutzen sowohl Firehose für aktuelle Signale als auch Archive für historischen Kontext.

Mit Data Firehose können Sie sofort mit dem Datenzugriff beginnen. Sie können Daten-Snapshots über die API nahtlos und effizient abrufen, suchen und filtern.

  • Daten aus den letzten 24 Stunden: Zustellung innerhalb weniger Minuten bis zu einigen Stunden (abhängig von der Snapshot-Größe)
  • Daten älter als 1 Tag: Verarbeitung und Zustellung dauert einige Stunden bis zu 3 Tagen (abhängig von der Snapshot-Größe)

Archive bietet zwei Bereitstellungsoptionen für eine nahtlose Integration in bestehende Workflows:

  • Amazon S3 Bucket: Erhalten Sie Daten-Snapshots direkt in Ihren S3-Bucket geliefert.
  • Webhook: Abrufen über Webhook für Echtzeit-Integration in Ihre Systeme.

Natürlich! Sowohl Data Firehose als auch Archive API ermöglichen die Filterung nach Kategorie, Domain, Datum, Sprache und Land vor dem Datenabruf, sodass Sie nur die Daten erhalten, die Sie wirklich benötigen.

Nein, die Standardbereitstellungsmethoden sind im Preis inbegriffen. Sowohl Data Firehose als auch Web Archive können direkt in einen Amazon S3 Bucket geliefert oder über Webhook für eine nahtlose Integration in bestehende Systeme abgerufen werden. Data Firehose unterstützt zusätzlich sofortiges kontinuierliches Streaming.

Nein, benutzerdefinierte Filterung ist eine Kernfunktion und kein kostenpflichtiges Add-on. Wir empfehlen eine strenge Filterung nach Kategorie, Domain, Datum, Sprache und Land. Eine sorgfältige Eingrenzung des Stream- oder Archiv-Abrufumfangs reduziert das Gesamtvolumen unnötiger übertragener Datensätze und optimiert so Ihre gesamten Datenkosten.

Bei der Arbeit mit großen Webdatenmengen sind Aktualität, Relevanz und Zugänglichkeit entscheidend. Während Common Crawl einen breiten historischen Snapshot des Webs bietet, liefert Bright Datas Archive API kontinuierlich aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen. Ein Vergleich beider Dienste:

Funktion Bright Datas Archive Common Crawl
Datenerfassung Erfasst öffentliche Webdaten kontinuierlich in Echtzeit und liefert nahezu aktuelle Ergebnisse. Periodisches Web-Crawling (nicht in Echtzeit), monatlich oder zweimonatlich aktualisiert. Daten können veraltet sein.
Datenvolumen 17,5 PB in 8 Monaten erfasst, mit 118 Mrd. Seiten (28 Mrd. eindeutige URLs von 40 Mio. Domains). Wöchentlich ~2,5 PB und Milliarden eindeutiger URLs hinzugefügt. 250 Mrd. Seiten über 18 Jahre erfasst.
Website-Abdeckung und Relevanz Konzentriert sich auf hochwertige, relevante Website-Daten basierend auf realen Scraping-Geschäftsanforderungen. Crawlt wahllos, einschließlich veralteter oder qualitativ minderwertiger Seiten.
Datentypen Vollständige Webseiten (JS-gerendert) 98,6 % HTML und Text
Filterung und Bereitstellung Vollständige Such- und Bereitstellungsplattform mit Filterung nach Kategorie, Domain, Sprache, Datum usw. Bereitstellung über Amazon S3 oder Webhook. Keine integrierte Filterung oder Bereitstellung. Große rohe WARC-Dateien müssen manuell verarbeitet werden.