Archive API Pricing
Power advanced pipelines for model training and web search with the world's largest web data repository
Trusted by 20,000+ customers worldwide
Customer favorite features
- Repository im Petabyte-Bereich
- Vollständige HTML-Seiten und Metadaten
- Erweiterte Filter- und Suchfunktionen
- ~2,5 PB täglich hinzugefügt
- Text, Bilder, Video und Audio
- Flexible Bereitstellungsoptionen
- Täglich werden mehr als 5 TB Text-Token hinzugefügt
- API-First-Zugriff
- KI-fähige Daten
- Täglich werden mehr als 2,5 Milliarden Bild-/Video-URLs hinzugefügt
- Wartungsfrei
- 99,99 % Verfügbarkeit + Support rund um die Uhr
Zahlungen mit AWS Marketplace
Nutzen Sie Ihre Einkäufe, um Ihre AWS-Verpflichtungen zu erfüllen, und profitieren Sie von einer optimierten Beschaffung und Erstellung von Rechnungen an einem Ort. Profitieren Sie von den robusten Validierungs- und Konformitätsprüfungen von AWS für Partner.
Branchenführende Compliance
Unsere Datenschutzpraktiken entsprechen den Datenschutzgesetzen, einschließlich des EU-Datenschutz-Rechtsrahmens, der DSGVO und des CCPA – unter Berücksichtigung von Anträgen auf Ausübung von Datenschutzrechten und mehr.
Archiv-API FAQ
Was ist die Archiv-API?
Die Archive API ist ein riesiges, kontinuierlich wachsendes, zwischengespeichertes Repository von Bright Data, das entwickelt wurde, um öffentliche Webdaten in großem Umfang zu erfassen und bereitzustellen. Es bietet vollständige Webseiten und Metadaten und eignet sich daher ideal für KI-Training, maschinelles Lernen und groß angelegte Datenanalysen. Im Gegensatz zu herkömmlichen Web-Crawls legt die Archive API Wert auf Relevanz, Aktualität und Benutzerfreundlichkeit und bietet Ihnen Zugriff auf die wichtigsten Teile des Internets, die täglich gescrapt werden.
Wie schnell kann ich auf die Daten zugreifen?
Sie können sofort über unsere Archiv-API auf Daten zugreifen. Mit der API können Sie Daten-Snapshots aus dem Archiv nahtlos und effizient suchen, abrufen und filtern.
- Daten der letzten 3 Tage: Die Bereitstellung dauert zwischen wenigen Minuten und einigen Stunden (abhängig von der Größe des Snapshots).
- Daten, die älter als 3 Tage sind: Die Verarbeitung und Bereitstellung dauert zwischen einigen Stunden und bis zu 3 Tagen (abhängig von der Größe des Snapshots).
Wie können meine Daten geliefert werden?
Archive bietet zwei Lieferoptionen, um eine nahtlose Integration in Ihre bestehenden Arbeitsabläufe zu gewährleisten:
- Amazon S3-Bucket: Lassen Sie Ihren Daten-Snapshot direkt an Ihren S3-Bucket liefern.
- Webhook: Abruf über Webhook für die Echtzeit-Integration in Ihre Systeme.
Kann ich die Daten des Archivs filtern, um nur das zu erhalten, was ich brauche?
Auf jeden Fall! Die Archiv-API ermöglicht das Filtern nach Kategorie, Domänen, Datum, Sprachen und Land vor dem Abrufen der Daten, sodass Sie nur das erhalten, was Sie benötigen.
Wie schneidet das Archiv von Bright Data im Vergleich zu Common Crawl ab?
Bei der Arbeit mit umfangreichen Webdaten sindAktualität, Relevanz und Zugänglichkeit entscheidend. Während Common Crawl einen umfassenden historischen Überblick über das Web bietet, liefert die Archive API von Bright Data kontinuierlich aktualisierte Echtzeitdaten mit erweiterten Filter- und Bereitstellungsoptionen. Hier ein Vergleich:
| Funktion | Bright Data's Archive | Common Crawl |
| Datenerfassung | Erfasst kontinuierlich öffentliche Webdaten in Echtzeit und liefert Ergebnisse, die so aktuell sind wie „jetzt“. | Regelmäßiges Web-Crawling (nicht in Echtzeit), monatliche oder zweimonatliche Aktualisierung. Daten können veraltet sein. |
| Datenvolumen | 17,5 PB in 8 Monaten erfasst, umfasst 118 Milliarden Seiten (28 Milliarden eindeutige URLs aus 40 Millionen Domains). Fügt ~2,5 PB und Milliarden eindeutiger URLs pro Woche hinzu. | 250 Milliarden Seiten in 18 Jahren gesammelt. |
| Website-Abdeckung und Relevanz | Konzentriert sich auf hochwertige, relevante Website-Daten basierend auf realen Scraping-Anforderungen. | Crawlt unterschiedslos, einschließlich veralteter oder minderwertiger Seiten. |
| Datentypen | Vollständige Webseiten (JS-gerendert) | 98,6 % HTML und Text |
| Filterung und Bereitstellung | Vollständige Such- und Bereitstellungsplattform – Filterung nach Kategorie, Domain, Sprache, Datum usw. Bereitstellung über Amazon S3 oder Webhook. | Keine integrierte Filterung oder Bereitstellung. Riesige WARC-Rohdateien müssen manuell verarbeitet werden. |