Archive API Pricing

Power advanced pipelines for model training and web search with the world's largest web data repository

pay as you go plan icon
PAY AS YOU GO
$0.2 /1K HTMLs
Keine Verpflichtung
Erste Schritte
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Historical data (+72 hours) starts at $1/1K HTMLs
2nd plan icon
ENTERPRISE
Contact us for a
personalized quote
Talk to a sales expert
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Dedicated Account Manager
  • 24/7 premium support
  • SLA guarantees
  • Volume discounts for large-scale data needs
  • Custom integration support
  • Extended delivery options
* Volume discounts are available for large data volumes, long-term commitments, or multi-solution projects.
Wir akzeptieren diese Zahlungsmethoden:
AWS logoVerwenden Sie AWS? Ab sofort können Sie über den AWS-Marktplatz bezahlen
Erste Schritte

Customer favorite features

  • Repository im Petabyte-Bereich
  • Vollständige HTML-Seiten und Metadaten
  • Erweiterte Filter- und Suchfunktionen
  • ~2,5 PB täglich hinzugefügt
  • Text, Bilder, Video und Audio
  • Flexible Bereitstellungsoptionen
  • Täglich werden mehr als 5 TB Text-Token hinzugefügt
  • API-First-Zugriff
  • KI-fähige Daten
  • Täglich werden mehr als 2,5 Milliarden Bild-/Video-URLs hinzugefügt
  • Wartungsfrei
  • 99,99 % Verfügbarkeit + Support rund um die Uhr
STREAMLINED

Zahlungen mit AWS Marketplace

Nutzen Sie Ihre Einkäufe, um Ihre AWS-Verpflichtungen zu erfüllen, und profitieren Sie von einer optimierten Beschaffung und Erstellung von Rechnungen an einem Ort. Profitieren Sie von den robusten Validierungs- und Konformitätsprüfungen von AWS für Partner.

KONFORM

Branchenführende Compliance

Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen, einschließlich des EU-Datenschutz-Rechtsrahmens, der DSGVO und des CCPA – unter Berücksichtigung von Anträgen auf Ausübung von Datenschutzrechten und mehr.

Archiv-API FAQ

Die Archive API ist ein riesiges, kontinuierlich wachsendes, zwischengespeichertes Repository von Bright Data, das entwickelt wurde, um öffentliche Webdaten in großem Umfang zu erfassen und bereitzustellen. Es bietet vollständige Webseiten und Metadaten und eignet sich daher ideal für KI-Training, maschinelles Lernen und groß angelegte Datenanalysen. Im Gegensatz zu herkömmlichen Web-Crawls legt die Archive API Wert auf Relevanz, Aktualität und Benutzerfreundlichkeit und bietet Ihnen Zugriff auf die wichtigsten Teile des Internets, die täglich gescrapt werden.

Sie können sofort über unsere Archiv-API auf Daten zugreifen. Mit der API können Sie Daten-Snapshots aus dem Archiv nahtlos und effizient suchen, abrufen und filtern.

  • Daten der letzten 3 Tage: Die Bereitstellung dauert zwischen wenigen Minuten und einigen Stunden (abhängig von der Größe des Snapshots).
  • Daten, die älter als 3 Tage sind: Die Verarbeitung und Bereitstellung dauert zwischen einigen Stunden und bis zu 3 Tagen (abhängig von der Größe des Snapshots).

Archive bietet zwei Lieferoptionen, um eine nahtlose Integration in Ihre bestehenden Arbeitsabläufe zu gewährleisten:

  • Amazon S3-Bucket: Lassen Sie Ihren Daten-Snapshot direkt an Ihren S3-Bucket liefern.
  • Webhook: Abruf über Webhook für die Echtzeit-Integration in Ihre Systeme.

Auf jeden Fall! Die Archiv-API ermöglicht das Filtern nach Kategorie, Domänen, Datum, Sprachen und Land vor dem Abrufen der Daten, sodass Sie nur das erhalten, was Sie benötigen.

Bei der Arbeit mit umfangreichen Webdaten sindAktualität, Relevanz und Zugänglichkeit entscheidend. Während Common Crawl einen umfassenden historischen Überblick über das Web bietet, liefert die Archive API von Bright Data kontinuierlich aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen. Hier ein Vergleich:

Funktion Bright Data's Archive Common Crawl
Datenerfassung Erfasst kontinuierlich öffentliche Webdaten in Echtzeit und liefert Ergebnisse, die so aktuell sind wie „jetzt“. Regelmäßiges Web-Crawling (nicht in Echtzeit), monatliche oder zweimonatliche Aktualisierung. Daten können veraltet sein.
Datenvolumen 17,5 PB in 8 Monaten erfasst, umfasst 118 Milliarden Seiten (28 Milliarden eindeutige URLs aus 40 Millionen Domains). Fügt ~2,5 PB und Milliarden eindeutiger URLs pro Woche hinzu. 250 Milliarden Seiten in 18 Jahren gesammelt.
Website-Abdeckung und Relevanz Konzentriert sich auf hochwertige, relevante Website-Daten basierend auf realen Scraping-Anforderungen. Crawlt unterschiedslos, einschließlich veralteter oder minderwertiger Seiten.
Datentypen Vollständige Webseiten (JS-gerendert) 98,6 % HTML und Text
Filterung und Bereitstellung Vollständige Such- und Bereitstellungsplattform – Filterung nach Kategorie, Domain, Sprache, Datum usw. Bereitstellung über Amazon S3 oder Webhook. Keine integrierte Filterung oder Bereitstellung. Riesige WARC-Rohdateien müssen manuell verarbeitet werden.

Sie sind sich nicht sicher, was Sie benötigen?