Data Firehose & Web Archive Pricing
Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.
Weltweit vertrauen 20,000+ Kunden auf uns.
Customer favorite features
- Speicher im Petabyte-Maßstab
- Vollständige HTML-Seiten und Metadaten
- Erweiterte Filterung und Suche
- Täglich ~2,5 PB hinzugefügt
- Text, Bilder, Videos und Audio
- Flexible Bereitstellungsoptionen
- Täglich 5T+ Text-Token hinzugefügt
- API-Erstzugang
- KI-bereite Daten
- Täglich 2,5 Mrd.+ Bild/Video-URLs hinzugefügt
- Kein Wartungsaufwand
- 99,99 % Verfügbarkeit + 24/7-Support
Zahlung über AWS Marketplace
Nutzen Sie Ihre Käufe zur Erfüllung von AWS-Verpflichtungen und profitieren Sie von optimierter Beschaffung und Rechnungsstellung an einem Ort. Genießen Sie die strengen Validierungs- und Compliance-Prüfungen von AWS für Partner.
Branchenführende Compliance
Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen einschließlich des EU-Datenschutzrahmens, der DSGVO und des CCPA und respektieren Anfragen zur Ausübung von Datenschutzrechten.
Nicht sicher, was Sie brauchen?
Archive API FAQ
Was ist der Unterschied zwischen Data Firehose und Web Archive?
Data Firehose liefert einen kontinuierlichen Echtzeit-Stream erfasster Webdaten (ca. 1 Mrd. täglich erfasst) – ideal für aktives Monitoring, Preisüberwachung und kontinuierliche KI-Trainingspipelines. Web Archive bietet Zugang zu einem umfangreichen historischen Repository mit über 624 Mrd. gecachten Webseiten (90 PB+), perfekt für Tiefenrecherche, Backtesting und Längsschnittanalysen. Viele Unternehmensteams nutzen sowohl Firehose für aktuelle Signale als auch Archive für historischen Kontext.
Wie schnell kann ich auf die Daten zugreifen?
Mit Data Firehose können Sie sofort mit dem Datenzugriff beginnen. Sie können Daten-Snapshots über die API nahtlos und effizient abrufen, suchen und filtern.
- Daten aus den letzten 24 Stunden: Zustellung innerhalb weniger Minuten bis zu einigen Stunden (abhängig von der Snapshot-Größe)
- Daten älter als 1 Tag: Verarbeitung und Zustellung dauert einige Stunden bis zu 3 Tagen (abhängig von der Snapshot-Größe)
Wie erhalte ich die Daten?
Archive bietet zwei Bereitstellungsoptionen für eine nahtlose Integration in bestehende Workflows:
- Amazon S3 Bucket: Erhalten Sie Daten-Snapshots direkt in Ihren S3-Bucket geliefert.
- Webhook: Abrufen über Webhook für Echtzeit-Integration in Ihre Systeme.
Kann ich Archive-Daten filtern, um nur die benötigten Daten zu erhalten?
Natürlich! Sowohl Data Firehose als auch Archive API ermöglichen die Filterung nach Kategorie, Domain, Datum, Sprache und Land vor dem Datenabruf, sodass Sie nur die Daten erhalten, die Sie wirklich benötigen.
Fallen für andere Bereitstellungsmethoden zusätzliche Kosten an?
Nein, die Standardbereitstellungsmethoden sind im Preis inbegriffen. Sowohl Data Firehose als auch Web Archive können direkt in einen Amazon S3 Bucket geliefert oder über Webhook für eine nahtlose Integration in bestehende Systeme abgerufen werden. Data Firehose unterstützt zusätzlich sofortiges kontinuierliches Streaming.
Fallen zusätzliche Kosten für benutzerdefinierte Filter auf meine Daten an?
Nein, benutzerdefinierte Filterung ist eine Kernfunktion und kein kostenpflichtiges Add-on. Wir empfehlen eine strenge Filterung nach Kategorie, Domain, Datum, Sprache und Land. Eine sorgfältige Eingrenzung des Stream- oder Archiv-Abrufumfangs reduziert das Gesamtvolumen unnötiger übertragener Datensätze und optimiert so Ihre gesamten Datenkosten.
Wie unterscheidet sich Bright Datas Archive von Common Crawl?
Bei der Arbeit mit großen Webdatenmengen sind Aktualität, Relevanz und Zugänglichkeit entscheidend. Während Common Crawl einen breiten historischen Snapshot des Webs bietet, liefert Bright Datas Archive API kontinuierlich aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen. Ein Vergleich beider Dienste:
| Funktion | Bright Datas Archive | Common Crawl |
| Datenerfassung | Erfasst öffentliche Webdaten kontinuierlich in Echtzeit und liefert nahezu aktuelle Ergebnisse. | Periodisches Web-Crawling (nicht in Echtzeit), monatlich oder zweimonatlich aktualisiert. Daten können veraltet sein. |
| Datenvolumen | 17,5 PB in 8 Monaten erfasst, mit 118 Mrd. Seiten (28 Mrd. eindeutige URLs von 40 Mio. Domains). Wöchentlich ~2,5 PB und Milliarden eindeutiger URLs hinzugefügt. | 250 Mrd. Seiten über 18 Jahre erfasst. |
| Website-Abdeckung und Relevanz | Konzentriert sich auf hochwertige, relevante Website-Daten basierend auf realen Scraping-Geschäftsanforderungen. | Crawlt wahllos, einschließlich veralteter oder qualitativ minderwertiger Seiten. |
| Datentypen | Vollständige Webseiten (JS-gerendert) | 98,6 % HTML und Text |
| Filterung und Bereitstellung | Vollständige Such- und Bereitstellungsplattform mit Filterung nach Kategorie, Domain, Sprache, Datum usw. Bereitstellung über Amazon S3 oder Webhook. | Keine integrierte Filterung oder Bereitstellung. Große rohe WARC-Dateien müssen manuell verarbeitet werden. |