ScrapeCon 2024
Die Zukunft der Datenerfassung, schon heute
Haben Sie die ScrapeCon verpasst? Keine Sorge, wir haben alles für Sie!
ScrapeCon Recap: Watch Now
Der Stand öffentlicher Webdaten
Webdaten werden überall genutzt. Sie treiben KI-Innovationen voran und prägen moderne Unternehmen in fast jeder Branche. Doch der öffentliche Charakter von Webdaten wird ständig in Frage gestellt. Da Big Tech diesen Rohstoff zunehmend monopolisiert und verschiedene Regulierungsbehörden gegensätzliche Ansätze verfolgen, stehen wir kurz davor, dass öffentliche Daten zu einem privaten Schatz werden?
Or Lenchner, CEO von Bright Data, eröffnet die Konferenz mit einem Einblick in den Stand der Webdatenerfassung im Jahr 2024 und darüber hinaus und beleuchtet die aktuellen Herausforderungen – und Chancen – für wachsende Web-Scraping-Aktivitäten. In dieser Sitzung behandeln wir folgende Themen: – Wie beeinflusst die Dominanz der Big Tech-Unternehmen die Zugänglichkeit und Nutzung von Webdaten? – Wie wirken sich diese Dilemmata in einem Umfeld widersprüchlicher regulatorischer Ansätze auf die Entwicklung öffentlicher Daten aus? – Wie können Scraping-Unternehmen sich an die sich wandelnden Herausforderungen anpassen und erfolgreich sein?Cloud-natives Scraping leicht gemacht
Entdecken Sie die Zukunft des cloudbasierten Web-Scrapings in dieser exklusiven Produktdemo, in der die neuesten Tools der Bright Data-Plattform vorgestellt werden.
Erfahren Sie, wie Sie Scraper erstellen und verwalten, die nahtlos in eine automatisch skalierende Infrastruktur und Unblocking-Technologie integriert sind. Befreien Sie sich vom Aufwand komplexer Scraping- und Skalierungsaufgaben und konzentrieren Sie sich auf die Entwicklung effektiver Geschäftslösungen. Ein Muss für Fachleute, die nach effizienten und optimierten Scraping-Abläufen suchen. In dieser Sitzung erfahren Sie: – Wie ein Hybridmodell die Vorteile von On-Premise- und Cloud-basiertem Scraping vereint? – Wie API-Scraping die Skalierbarkeit verbessert und ein Gleichgewicht zwischen Zuverlässigkeit und Kosteneffizienz herstellt? – Wie Sie sicherstellen, dass Ihre Scraper zukunftssicher aufgebaut sind und den Wartungsaufwand minimieren?Strategien zum Scraping entschlüsseln: Selbst entwickeln, kaufen oder API nutzen?
Ermitteln Sie den besten Ansatz für Ihre Scraping-Vorgänge, sei es die Entwicklung eines Scrapers von Grund auf, der Kauf eines vorgefertigten Datensatzes oder die Nutzung von Scraping-APIs.
Entdecken Sie die optimalen Tools für Ihren Tech-Stack, beurteilen Sie, wann bestimmte Technologien überflüssig sein könnten, und verschaffen Sie sich einen Überblick über die aktuellen Scraping-Methoden. Diese Sitzung bietet einen klaren Entscheidungsrahmen für jedes Scraping-Szenario und stellt sicher, dass Sie fundierte Entscheidungen treffen, um Ihre ScrapeOps zu optimieren. In dieser Sitzung erfahren Sie: – Was ScrapeOps ist und wie es dazu beitragen kann, Ihre Web-Datenerfassung effizienter, stabiler und risikofreier zu gestalten? – Wie Sie die optimalen Tools auswählen und in Ihren Tech-Stack integrieren, um die Effizienz Ihrer Web-Scraping-Projekte zu steigern? – Warum die Vereinfachung Ihrer Scraping-Aktivitäten für Ihr Unternehmen entscheidend sein kann?Die Zukunft von Daten für KI: Rechtliche und operative Herausforderungen in Einklang bringen
Tauchen Sie ein in die rechtlichen und betrieblichen Herausforderungen, denen Entwickler bei der Erfassung von Webdaten für KI gegenüberstehen.
Lernen Sie praktische Rahmenkonzepte kennen, die Entwicklerteams in die Lage versetzen, fundierte Entscheidungen zu treffen und dabei das richtige Gleichgewicht zwischen rechtlicher Compliance und betrieblicher Effizienz zu finden. Egal, ob Sie ein erfahrener Entwickler sind oder sich gerade erst mit Web-Scraping beschäftigen – gewinnen Sie wertvolle Einblicke, um Ihre KI-Projekte sicher zu steuern. In dieser Sitzung erfahren Sie: – Wie kann die Web-Datenerfassung potenzielle Verzerrungen in den Daten angehen und mindern? – Welche rechtlichen Aspekte sind bei der Schulung von KI-Modellen unter Verwendung von im Web gesammelten Daten zu berücksichtigen? – Wie können Teams die Einhaltung von Datenschutzbestimmungen bei der Erfassung vielfältiger Daten sicherstellen? – Welche Tools oder Frameworks haben sich bei der Aufrechterhaltung der betrieblichen Effizienz als wirksam erwiesen?Von KI-gestützten Erkenntnissen bis zum Training von LLMs
Begeben Sie sich auf eine praktische Reise von der Erstellung der Datensätze bis hin zur Nutzung KI-gestützter Erkenntnisse.
Begleiten Sie uns, während wir Sie durch die sorgfältige Auswahl eines auf Ihre KI-Ziele zugeschnittenen Datensatzes führen, die Genauigkeit durch Regeln und benutzerdefinierte Validierungen sicherstellen und eine reale Fallstudie zur Datensatznutzung vorstellen. Ob Sie Anfänger oder Experte sind – dieser Schritt-für-Schritt-Leitfaden wird Ihre Kenntnisse im Umgang mit Datensätzen für KI vertiefen. In dieser praktischen Sitzung behandeln wir folgende Themen: – Auswahl des Datensatzes: Wählen Sie Datensätze aus, die auf Ihre KI-Ziele abgestimmt sind. – Gewährleistung der Genauigkeit: Wenden Sie Regeln, Datentypen und benutzerdefinierte Validierungen an, um die Integrität der Datensätze sicherzustellen. – Praktische Anwendung: Eine Fallstudie zur praktischen Nutzung von Datensätzen. – Integration mit Snowflake: Integrieren Sie Datensätze effizient in Snowflake. – Ableitung von Erkenntnissen: Gewinnen Sie KI-gestützte Erkenntnisse für spezifische Anwendungsfälle. – LLM-Training: Speisen Sie strukturierte Daten in LLM-Modelle ein, um ein optimales Training zu erzielen.Ein Leitfaden zum Aufbau eines zuverlässigen Datensatzes
Die Erstellung eines zuverlässigen Datensatzes ist mehr als nur das Sammeln von Daten; es geht darum, dessen Qualität, Struktur und Anpassungsfähigkeit sicherzustellen.
Entdecken Sie fortschrittliche Methoden und Strategien zur sorgfältigen Kuratierung von Datensätzen, einschließlich der KI-gesteuerten Schemaerstellung für optimale Organisation und Effizienz. In dieser Sitzung behandeln wir: – KI-gesteuerte Schemaerstellung: Definieren Sie Datenstruktur, Einstellungen und Parameter. – Beispielprüfung: Ein systematischer Ansatz zur Überprüfung von Datenbeispielen. – Aktualisierung und Export von Datensätzen: Techniken zur Aktualisierung von Datensätzen und verschiedene Exportmethoden. – Datenvalidierung: Festlegung von Regeln zur Gewährleistung der Datengenauigkeit und -konsistenz. – Anpassung an Änderungen: Strategien zur Anpassung an strukturelle Veränderungen der Website. – Reparse-Techniken: Methoden zur erneuten Analyse und Anpassung von Daten für mehr Flexibilität.Das Executive Playbook
Sichern Sie sich einen Platz in der ersten Reihe für eine tiefgehende, ehrliche und wertvolle Diskussion unter hochrangigen Führungskräften aus der Tech-Branche.
Sie werden ihre operativen Herausforderungen und Lösungen im Zusammenhang mit der groß angelegten Datenerfassung teilen. Erfahren Sie, wie führende Unternehmen mit regulatorischen Änderungen, ethischen Dilemmata und den Auswirkungen von KI auf ihre Prozesse umgehen. Unter der Leitung unseres Chief Customer Officers vermittelt diese Sitzung technischen Führungskräften und F&E-Leitern umsetzbare Erkenntnisse und bewährte Strategien zur Verbesserung ihrer öffentlichen Web-Datenerfassung. Ein Blick auf die wichtigsten Fragen der Podiumsdiskussion: – Warum sind Webdaten für Ihr Unternehmen geschäftskritisch, und wie nutzen Sie diese, um operative und Wettbewerbsvorteile zu erzielen? – Wie funktioniert Ihr Webdatenerfassungsbetrieb, und wie hat er sich im Laufe der Zeit entwickelt? Wie stehen Sie zu internen Lösungen im Vergleich zu Outsourcing-Lösungen? – Nach welchem Entscheidungsrahmen richten Sie sich bei der Zuweisung von Ressourcen für die Webdatenerfassung? (unter Berücksichtigung von Gesamtbudget, Infrastrukturkosten, Personal, Tools, Datenqualitätssicherung usw.) – Was sind die größten Herausforderungen, denen Sie derzeit bei der Datenerfassung gegenüberstehen? – Wie integrieren oder vergleichen Sie öffentliche Daten mit anderen Datenquellen? – Sind Sie während Ihrer Webdatenerfassung auf besondere Herausforderungen oder Hindernisse gestoßen? Wenn ja, wie haben Sie diese bewältigt? – Gibt es bewährte Verfahren oder Strategien, die sich Ihrer Erfahrung nach als wirksam erwiesen haben, um die höchste Qualität und Relevanz der von Ihnen erfassten Webdaten sicherzustellen?Von Klicks zu Erfassungen: Browser-Interaktionen für Scraper meistern
Tauchen Sie ein in die neuesten Innovationen rund um die Browser-Automatisierung für groß angelegte Scraping-Projekte.
Diese Sitzung ist ein Muss für Entwickler, die Scraping-Projekte durchführen, die Browser-Interaktionen erfordern. In dieser praxisorientierten Sitzung lernen Sie: – Überblick über die Scraping-Infrastruktur: Verstehen Sie die Komponenten für mehrstufiges Scraping, einschließlich Server-Setups, Browser-Konfigurationen und Proxy-Verwaltung. – Live-API-Demos: Verbessern Sie Ihre Puppeteer-, Playwright- und Selenium-Scraper; lernen Sie den Umgang mit mehreren Browsern. – Praktische Anwendung: Erstellen Sie ein Puppeteer-Skript für E-Commerce, nutzen Sie Node.js und führen Sie Parsing von HTML mit Cheerio durch. – Debugging & Kostenmanagement: Nutzen Sie Chrome DevTools zum Debugging und lernen Sie Strategien zur Verwaltung der Betriebskosten.Mehr als IP-Sperren und CAPTCHAs
Tauchen Sie ein in die neuesten Herausforderungen, die fortschrittliche Anti-Bot-Technologien mit sich bringen, und lernen Sie die neuesten Techniken kennen, um diese zu bewältigen.
Erleben Sie die Erstellung und Fehlerbehebung von Scrapern in Echtzeit, einschließlich Demonstrationen zur Optimierung der Netzwerkleistung und zur Bewältigung von Herausforderungen mit Statischen IPs. Bewerten Sie die Stärken und Schwächen verschiedener Proxy-Netzwerke und entdecken Sie leistungsstarke Tools, die entwickelt wurden, um die schwierigsten Website-Sperren zu umgehen. Diese speziell auf Entwickler zugeschnittene Sitzung verbindet strategische Einblicke nahtlos mit praktischer Programmierung und Live-Demonstrationen. Zurück zu den Grundlagen: Arten von Sperren: Verstehen Sie die verschiedenen Sperrarten und wie sie funktionieren. Einfache und häufige Sperren: Tauchen Sie ein in IP-Sperren und Ratenbegrenzungen und lernen Sie, wie Sie diese schnell umgehen können. Fortgeschrittene Sperren: Entdecken Sie CAPTCHAs, Anti-Bot-Software, Cloudflare und andere Herausforderungen sowie deren Lösungen. Auswahl des richtigen Proxy-Produkts: Bewerten Sie die Vor- und Nachteile verschiedener Proxy-Netzwerke. Live-Programmierung: Erstellen und Optimieren von Scrapern Demo: Einzelner Crawl vs. 1.000er-Batch: Beobachten Sie, wie sich verschiedene Netzwerke in unterschiedlichen Szenarien verhalten. Mit node.js senden wir eine einzelne Anfrage über Rechenzentrums- und Residential-Proxys und demonstrieren so die Erfolgsraten beider Netzwerke. Wir werden außerdem aufzeigen,Von der ersten Anfrage bis zur abschließenden Analyse
Nehmen Sie an einer dynamischen Live-Podiumsdiskussion mit den führenden Entwicklern und Datenexperten der Branche teil, die das gesamte Spektrum von Webdatenprojekten beleuchten und dabei fachliche Einblicke, praktische Strategien und eine Prise Entwicklerhumor miteinander verbinden.
Wichtige Diskussionspunkte: – Grundlagen der Webdatenerfassung: Tauchen Sie ein in die besten Sprachen, Frameworks und Tools für effizientes Web-Scraping. – Website-Entsperrung meistern: Lernen Sie robuste Scraping-Techniken kennen, verstehen Sie Herausforderungen und entdecken Sie bewährte Workarounds. – Datenanalyse im Detail: Tipps zur Datenbankoptimierung, Datenaufbereitung und überzeugendem Data Storytelling. – KI-gestützte Techniken enthüllt: Integrieren Sie KI in das Scraping und verbessern Sie Ihre Datenanalysen mit modernsten KI-Tools.Schlussbemerkungen
Webdaten sind der Motor, der KI-Innovationen vorantreibt und moderne Unternehmen prägt. Doch da Big Tech diesen Rohstoff zunehmend monopolisiert und verschiedene Regulierungsbehörden gegensätzliche Ansätze verfolgen, stehen wir kurz davor, dass öffentliche Daten zu einem privaten Schatz werden? Unser CEO eröffnet die Konferenz mit einem Einblick in den Stand der Webdatenerfassung im Jahr 2023/2024 und beleuchtet dabei aktuelle Herausforderungen und Chancen.
In dieser Sitzung erfahren Sie: – Werde ich 2024 Daten auf die gleiche Weise (oder überhaupt) scrapen können? – Wie sollte man 2024 an die Datenerfassung herangehen, während sich die einschlägigen Vorschriften weiterentwickeln? – Welche bahnbrechenden Technologien und Produkte können wir 2024 erwarten, die Scraping-Vorgänge neu definieren werden? An der Sitzung nehmen neben Or auch Anthony Goldbloom, Mitbegründer und ehemaliger CEO von Kaggle.com, der weltweit größten KI- und ML-Community, sowie Jo Levy, Partnerin bei The Norton Law Firm und ehemalige Vizepräsidentin Präsidentin und General Counsel für den asiatisch-pazifischen Raum und Japan bei der Intel Corporation. Gemeinsam werden sie sich mit der Zukunft von LLMs befassen und die komplexe rechtliche Landschaft rund um das Data Scraping im Zeitalter grundlegender KI-Modelle wie ChatGPT beleuchten.Sprecher
Lernen Sie die Köpfe hinter dem Mikrofon kennen.

CEO, Bright Data

Partner bei der Anwaltskanzlei The Norton Law
, Anwaltskanzlei Norton

Leiter Produkt- und
sdesign, Rakuten

Leiterin Proxy-Produkte,
Bright Data

Gründer & Software-
-Entwickler, Python Simplified

CCO, Bright Data

Senior Vice President für Reise-Technologie, Ixigo

Senior Vice President für Reise-Technologie, Ixigo

Datensätze Experts TL,
Bright Data

Gründerin & Entwicklerin,
-Befürworterin, TiffInTech

VP of Technology,
Coding With Lewis

Leiter Datenprodukte,
Bright Data

Gründer & CEO, Tech Bible

Leiter der Forschungs- und Entwicklungsabteilung, Bright Data

Gründer & Youtuber,
Alex The Analyst

Post-Sale-Spezialist,
Bright Data

Leiterin Proxy-Produkte,
Bright Data

Gründer, Claro Analytics

COO, Bright Data

Kens nächste Nachbarn
Die ScrapeCon mag vorbei sein, aber die Diskussion geht weiter.