Archive API Pricing

Q: Wie schneidet das Archiv von Bright Data im Vergleich zu Common Crawl ab?

Bei der Arbeit mit umfangreichen Webdaten sindAktualität, Relevanz und Zugänglichkeit entscheidend. Während Common Crawl einen umfassenden historischen Überblick über das Web bietet, liefert die Archive API von Bright Data kontinuierlich aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen. Hier ein Vergleich: Funktion Bright Data's Archive Common Crawl Datenerfassung Erfasst kontinuierlich öffentliche Webdaten in Echtzeit und liefert Ergebnisse, die so aktuell sind wie „jetzt“. Regelmäßiges Web-Crawling (nicht in Echtzeit), monatliche oder zweimonatliche Aktualisierung. Daten können veraltet sein. Datenvolumen 17,5 PB in 8 Monaten erfasst, umfasst 118 Milliarden Seiten (28 Milliarden eindeutige URLs aus 40 Millionen Domains). Fügt ~2,5 PB und Milliarden eindeutiger URLs pro Woche hinzu. 250 Milliarden Seiten in 18 Jahren gesammelt. Website-Abdeckung und Relevanz Konzentriert sich auf hochwertige, relevante Website-Daten basierend auf realen Scraping-Anforderungen. Crawlt unterschiedslos, einschließlich veralteter oder minderwertiger Seiten. Datentypen Vollständige Webseiten (JS-gerendert) 98,6 % HTML und Text Filterung und Bereitstellung Vollständige Such- und Bereitstellungsplattform – Filterung nach Kategorie, Domain, Sprache, Datum usw. Bereitstellung über Amazon S3 oder Webhook. Keine integrierte Filterung oder Bereitstellung. Riesige WARC-Rohdateien müssen manuell verarbeitet werden.

Power advanced pipelines for model training and web search with the world's largest web data repository

Melden Sie sich jetzt an, und wir verdoppeln Ihre erste Einzahlung Dollar für Dollar, bis zu $500!

Jetzt anfangen

PAY AS YOU GO

$0.2 /1K HTMLs

Keine Verpflichtung

Erste Schritte

Includes:

API access with advanced filtering (domains, categories, dates, languages, countries, paths)
Flexible delivery: AWS, GCP, Snowflake, Databricks and more
Standard support
Historical data (+72 hours) starts at $1/1K HTMLs

ENTERPRISE

Talk to a sales expert

Includes:

API access with advanced filtering (domains, categories, dates, languages, countries, paths)
Flexible delivery: AWS, GCP, Snowflake, Databricks and more
Standard support
Dedicated Account Manager
24/7 premium support
SLA guarantees
Volume discounts for large-scale data needs
Custom integration support
Extended delivery options

* Volume discounts are available for large data volumes, long-term commitments, or multi-solution projects.

Wir akzeptieren diese Zahlungsmethoden:

Verwenden Sie AWS? Ab sofort können Sie über den AWS-Marktplatz bezahlen

Erste Schritte

Trusted by 20,000+ customers worldwide

Customer favorite features

Repository im Petabyte-Bereich
Vollständige HTML-Seiten und Metadaten
Erweiterte Filter- und Suchfunktionen
~2,5 PB täglich hinzugefügt
Text, Bilder, Video und Audio
Flexible Bereitstellungsoptionen
Täglich werden mehr als 5 TB Text-Token hinzugefügt
API-First-Zugriff
KI-fähige Daten
Täglich werden mehr als 2,5 Milliarden Bild-/Video-URLs hinzugefügt
Wartungsfrei
99,99 % Verfügbarkeit + Support rund um die Uhr

STREAMLINED

Zahlungen mit AWS Marketplace

Nutzen Sie Ihre Einkäufe, um Ihre AWS-Verpflichtungen zu erfüllen, und profitieren Sie von einer optimierten Beschaffung und Erstellung von Rechnungen an einem Ort. Profitieren Sie von den robusten Validierungs- und Konformitätsprüfungen von AWS für Partner.

KONFORM

Branchenführende Compliance

Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen, einschließlich des EU-Datenschutz-Rechtsrahmens, der DSGVO und des CCPA – unter Berücksichtigung von Anträgen auf Ausübung von Datenschutzrechten und mehr.

Archiv-API FAQ

Was ist die Archiv-API?

Die Archive API ist ein riesiges, kontinuierlich wachsendes, zwischengespeichertes Repository von Bright Data, das entwickelt wurde, um öffentliche Webdaten in großem Umfang zu erfassen und bereitzustellen. Es bietet vollständige Webseiten und Metadaten und eignet sich daher ideal für KI-Training, maschinelles Lernen und groß angelegte Datenanalysen. Im Gegensatz zu herkömmlichen Web-Crawls legt die Archive API Wert auf Relevanz, Aktualität und Benutzerfreundlichkeit und bietet Ihnen Zugriff auf die wichtigsten Teile des Internets, die täglich gescrapt werden.

Wie schnell kann ich auf die Daten zugreifen?

Sie können sofort über unsere Archiv-API auf Daten zugreifen. Mit der API können Sie Daten-Snapshots aus dem Archiv nahtlos und effizient suchen, abrufen und filtern.

Daten der letzten 3 Tage: Die Bereitstellung dauert zwischen wenigen Minuten und einigen Stunden (abhängig von der Größe des Snapshots).
Daten, die älter als 3 Tage sind: Die Verarbeitung und Bereitstellung dauert zwischen einigen Stunden und bis zu 3 Tagen (abhängig von der Größe des Snapshots).

Wie können meine Daten geliefert werden?

Archive bietet zwei Lieferoptionen, um eine nahtlose Integration in Ihre bestehenden Arbeitsabläufe zu gewährleisten:

Amazon S3-Bucket: Lassen Sie Ihren Daten-Snapshot direkt an Ihren S3-Bucket liefern.
Webhook: Abruf über Webhook für die Echtzeit-Integration in Ihre Systeme.

Kann ich die Daten des Archivs filtern, um nur das zu erhalten, was ich brauche?

Auf jeden Fall! Die Archiv-API ermöglicht das Filtern nach Kategorie, Domänen, Datum, Sprachen und Land vor dem Abrufen der Daten, sodass Sie nur das erhalten, was Sie benötigen.

Wie schneidet das Archiv von Bright Data im Vergleich zu Common Crawl ab?

Bei der Arbeit mit umfangreichen Webdaten sindAktualität, Relevanz und Zugänglichkeit entscheidend. Während Common Crawl einen umfassenden historischen Überblick über das Web bietet, liefert die Archive API von Bright Data kontinuierlich aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen. Hier ein Vergleich:

Funktion	Bright Data's Archive	Common Crawl
Datenerfassung	Erfasst kontinuierlich öffentliche Webdaten in Echtzeit und liefert Ergebnisse, die so aktuell sind wie „jetzt“.	Regelmäßiges Web-Crawling (nicht in Echtzeit), monatliche oder zweimonatliche Aktualisierung. Daten können veraltet sein.
Datenvolumen	17,5 PB in 8 Monaten erfasst, umfasst 118 Milliarden Seiten (28 Milliarden eindeutige URLs aus 40 Millionen Domains). Fügt ~2,5 PB und Milliarden eindeutiger URLs pro Woche hinzu.	250 Milliarden Seiten in 18 Jahren gesammelt.
Website-Abdeckung und Relevanz	Konzentriert sich auf hochwertige, relevante Website-Daten basierend auf realen Scraping-Anforderungen.	Crawlt unterschiedslos, einschließlich veralteter oder minderwertiger Seiten.
Datentypen	Vollständige Webseiten (JS-gerendert)	98,6 % HTML und Text
Filterung und Bereitstellung	Vollständige Such- und Bereitstellungsplattform – Filterung nach Kategorie, Domain, Sprache, Datum usw. Bereitstellung über Amazon S3 oder Webhook.	Keine integrierte Filterung oder Bereitstellung. Riesige WARC-Rohdateien müssen manuell verarbeitet werden.

Sie sind sich nicht sicher, was Sie benötigen?

Kontakt Vertrieb