In diesem Tutorial lernst du:
- Was Dataiku ist und was es für die KI-Agenten-Entwicklung in Unternehmen bietet.
- Die wichtigsten Einschränkungen von KI-Agenten und wie man sie mithilfe von Web-Zugangstools überwindet.
- Wie man einen Dataiku-KI-Agenten mit dem Bright Data Web MCP für Web-Scraping, Suche, Discovery, Automatisierung und mehr verbindet.
Lass uns loslegen!
Wie Dataiku KI-Agenten unterstützt
Dataiku ist eine zentrale, kollaborative Plattform, die Unternehmen dabei hilft, Rohdaten in verwertbare Erkenntnisse, Vorhersagemodelle und GenAI-Anwendungen umzuwandeln. Sie bietet eine End-to-End-Umgebung, in der Datenteams und Geschäftsanwender gemeinsam an Analyse- und KI-Projekten arbeiten können.

Dataiku unterstützt KI-Agenten, indem es eine vollständige Umgebung zum sicheren Erstellen, Bereitstellen und Verwalten von Agenten in großem Maßstab bietet. Es stellt die Tools, Governance und Integrationen bereit, die benötigt werden, um Agenten mit Daten, Modellen und externen Systemen zu verbinden. Es stellt sicher, dass Agenten zuverlässig innerhalb von Unternehmens-Workflows arbeiten und dabei kontrollierbar und nachvollziehbar bleiben.
Die wichtigsten Funktionen der Dataiku-Plattform für KI-Agenten sind:
- Flexibles Agent-Building: Visuelle und codebasierte Agentenerstellung für nicht-technische Benutzer und erfahrene Entwickler.
- Integrierte Tool-Unterstützung: Integrationen mit Drittanbieterdiensten zum Abfragen von Datensätzen, Verbinden mit KI-Modellen und Aufrufen von Web-Services.
- LLM Mesh: Zentrale Abstraktionsschicht zur Verwaltung und Weiterleitung der LLM-Nutzung bei Anbietern wie OpenAI, Anthropic und Mistral.
- Enterprise-Governance: Rollenbasierte Zugriffskontrolle, Auditing, Nachverfolgbarkeit, Tests und Performance-Monitoring für den sicheren Produktionseinsatz.
Warum Dataiku-KI-Agenten mit Web-Scraping, Discovery, Suche und Interaktionstools erweitern
Dataiku-KI-Agenten unterliegen wie alle LLM-gestützten Systeme einer grundlegenden Einschränkung: Informationsstagnation…
Large Language Models erzeugen Ausgaben auf Basis von Trainingsdaten, die die Vergangenheit widerspiegeln, nicht die Gegenwart. Daher können sie veraltete Empfehlungen, halluzinierte Fakten oder unvollständige Erkenntnisse liefern, wenn sie in sich schnell verändernden Unternehmensumgebungen eingesetzt werden.
In der Praxis wird dies zu einem ernsthaften Engpass für Dataiku-Workflows. Ein KI-Agent ohne Zugang zu aktuellen Daten kann sich auf veraltete Best Practices stützen, aktuelle Updates in APIs oder Plattformen übersehen oder neu verfügbare Datensätze und Geschäftssignale nicht einbeziehen. Das verringert die Zuverlässigkeit und schränkt den Wert der KI-gesteuerten Automatisierung in Unternehmens-Pipelines ein.
Um diese Einschränkung zu überwinden, können Dataiku-Agenten nativ mit einer Echtzeit-Webdaten-Infrastruktur verbunden werden. Hier wird Bright Data zu einer entscheidenden Erweiterung.
Bright Data’s Web MCP
Der Bright Data Web MCP stattet Dataiku-KI-Agenten mit Live-Websuche, Datenfindung, strukturierter Extraktion und automatisierter Browser-Interaktion aus. Er ermöglicht es Agenten, mit aktuellen, verifizierbaren Informationen zu arbeiten, anstatt sich ausschließlich auf statisches Wissen zu verlassen.
Web MCP stellt 70+ Tools für die Interaktion mit API-basierten Produkten und Diensten von Bright Data bereit. Selbst im Rapid-Modus (kostenlose Stufe) bietet es nützliche Tools wie:
| Tool | Beschreibung |
|---|---|
search_engine + Batch-Version für parallele Nutzung |
Google-, Bing- oder Yandex-Ergebnisse als strukturiertes JSON oder Markdown abrufen |
scrape_as_markdown + Batch-Version für parallele Nutzung |
Beliebige Webseiten in sauberes Markdown umwandeln und dabei Anti-Scraping-Schutz umgehen |
discover |
KI-gestützte Suche, die gerankte, relevante Web-Ergebnisse liefert |
Der [Pro-Modus](https://github.com/brightdata/brightdata-mcp?tab=readme-ov-file#-pricing, modes) schaltet dann erweiterte Funktionen zur strukturierten Datenextraktion von Plattformen wie Yahoo Finance, Amazon, LinkedIn, YouTube, Zillow, Google Maps und 40+ weiteren frei. Zudem bietet er Tools für vollständige Browser-Automatisierung.
Wichtig: Die Web-MCP-Tools basieren auf der umfangreichen Infrastruktur von Bright Data, die von einem globalen Residential-Proxy-Netzwerk mit über 400 Millionen IPs in 195+ Ländern betrieben wird. Dies gewährleistet hohe Zuverlässigkeit, Skalierbarkeit und konsistenten Zugang zu Web-Ressourcen, auch bei Enterprise-Lastmengen.
So gibst du Dataiku-Agenten über Bright Data Web MCP Zugang zum Web
In dieser Schritt-für-Schritt-Anleitung wirst du durch den Prozess der Konfiguration des Bright Data Web MCP in Dataiku-Agenten geführt. Auf diese Weise erhalten sie die Fähigkeit, das Web zu erkunden und ihre Antworten auf reale, aktuelle und überprüfbare Informationen zu stützen.
Folge den nachstehenden Anweisungen!
Voraussetzungen
Um diesem Tutorial-Abschnitt zu folgen, stelle sicher, dass du Folgendes hast:
- Ein Dataiku Cloud-Konto (auch eine kostenlose Testversion ist ausreichend).
- Einen API-Schlüssel für einen der von Dataiku unterstützten LLM-Anbieter (in diesem Beispiel verwenden wir einen OpenAI-API-Schlüssel).
- Ein Bright Data-Konto mit einem konfigurierten API-Schlüssel.
- Vertrautheit mit der Funktionsweise von MCP.
- Vertrautheit mit den vom Web-MCP-Server bereitgestellten Tools.
Hinweis: Folge der offiziellen Anleitung zum Einrichten deines Bright Data API-Schlüssels.
Schritt #1: Erstelle deinen Dataiku-Space
Nachdem du dich zum ersten Mal bei Dataiku Cloud angemeldet hast, wirst du aufgefordert, deinen ersten Dataiku-Space zu erstellen.
Gib einen Namen für deinen Space ein, wähle eine Region aus und klicke dann auf die Schaltfläche “CREATE MY SPACE”:

Du kannst dir einen Space als isolierte Dataiku-Umgebung mit eigener Konfiguration vorstellen. Jeder Space läuft mit einer bestimmten Version der Dataiku-Plattform. Da Dataiku regelmäßig Updates veröffentlicht, werden Spaces periodisch aktualisiert, um Zugang zu den neuesten Funktionen und Verbesserungen zu bieten.
Sobald dein Space erstellt ist, wirst du zum Dataiku-Space-Dashboard weitergeleitet:

Gut gemacht! Dein Dataiku Cloud-Konto und dein Space sind jetzt einsatzbereit.
Schritt #2: LLM-Integration konfigurieren
Dein Dataiku-Agent benötigt Zugang zu einem LLM, um zu funktionieren. In diesem Abschnitt verbinden wir ein OpenAI-Konto, aber der Prozess ist für andere unterstützte Anbieter ähnlich.
Öffne zunächst die Seite “Connections”. Klicke dann auf “ADD A CONNECTION”:

Du wirst zur Seite “DSS Settings” weitergeleitet:

Klicke hier auf das Dropdown “NEW CONNECTION”, suche nach dem Begriff “openai” und wähle die entsprechende Option:

Gib einen Namen für die Verbindung ein (z.B. “OpenAI”) und füge deinen OpenAI-API-Schlüssel ein. Klicke auf “TEST”, um zu überprüfen, ob die Verbindung funktioniert, und wähle dann “CREATE”, um sie hinzuzufügen:

Nach der Erstellung erscheint die OpenAI-Verbindung auf der Seite “Connections”:

Dein Dataiku-Konto kann jetzt auf OpenAI-LLM-Modelle zugreifen. Du bist bereit, KI-Agenten zu erstellen, die von externen Modellen betrieben werden. Toll!
Schritt #3: Vorbereitung für die Bright Data Web MCP Remote-Verbindung
Bevor du deinen Agenten erstellst, musst du eine Verbindung zum Bright Data Web MCP-Server konfigurieren.
Im Gegensatz zu lokalen KI-Agenten-Lösungen läuft Dataiku in der Cloud. Das bedeutet, dass du dich mit der Remote-Version des Bright Data Web MCP-Servers verbinden musst. Mit anderen Worten: Du kannst den Web-MCP-Server nicht lokal installieren und dich von Dataiku aus damit verbinden.
Hinweis: Der Bright Data Web MCP Remote-Server ist Enterprise-ready. Er unterstützt unbegrenzte Verbindungen und hohe Skalierbarkeit, genau wie alle anderen Bright Data-Produkte.
Mache dich zunächst mit dem URL-Format der Bright Data Web MCP Remote-Verbindung vertraut:
https://mcp.brightdata.com/mcp?token=<YOUR_BRIGHT_DATA_API_KEY>&pro=1
Beachte, dass der Parameter &pro=1 optional ist:
- Ohne
&pro=1: Du erhältst nur Zugang zu den kostenlosen Tools (5.000 Anfragen/Monat) im Rapid-Modus. - Mit
&pro=1: Du erhältst Zugang zum vollständigen Paket von 70+ Tools und erweiterten Funktionen, aber es fallen Nutzungsgebühren an.
Wenn du eine granularere Kontrolle möchtest, z.B. nur bestimmte Tools oder Tool-Gruppen aktivieren, kannst du direkt über das Bright Data-Dashboard eine benutzerdefinierte Remote-MCP-URL generieren.
Melde dich bei deinem Bright Data-Konto an und navigiere zur Seite “AI Gateways > MCP”. Folge dem Setup-Assistenten, um deinen MCP-Server-Zugang zu konfigurieren. Am Ende des Prozesses erhältst du eine angepasste Verbindungs-URL wie folgt:

Kopiere die “Streamable HTTP”-Verbindungs-URL, da du sie in Kürze benötigen wirst, um die Bright Data Web MCP-Verbindung in deinem Dataiku-Space zu konfigurieren. Gut!
Schritt #4: Dataiku mit dem Bright Data Web MCP verbinden
Da du nun die Bright Data Web MCP-Verbindungs-URL hast, ist der nächste Schritt, eine MCP-Verbindung in deinem Dataiku-Space zu erstellen.
Öffne wie zuvor das Dropdown “NEW CONNECTION”. Suche diesmal nach “mcp” und wähle die Option “Remote MCP”:

Gib deiner MCP-Verbindung einen Namen (z.B. bright-data-web-mcp) und füge die zuvor erhaltene Remote Web MCP-Verbindungs-URL ein:

Drücke “TEST”, um zu überprüfen, ob die Verbindung korrekt funktioniert, und wähle dann “CREATE”, um sie hinzuzufügen. Nach der Erstellung erscheint die MCP-Verbindung auf der Seite “DSS Settings”:

Ausgezeichnet! Dein Dataiku-Space kann sich jetzt mit dem Bright Data Web MCP-Server verbinden und deinen zukünftigen KI-Agenten Zugang zu Live-Web-Funktionen geben.
Schritt #5: Erstelle deinen Dataiku-KI-Agenten
Zurück auf der Dataiku-Seite “Overview”, klicke auf “MANAGE” auf der Karte “Dataiku Solutions”:

Dies führt dich zur Projektverwaltungsseite. Klicke auf das Dropdown “NEW PROJECT” und wähle die Option “Blank project”:

Gib deinem Dataiku-Projekt einen Namen, z.B. “Web Access”, und klicke auf “CREATE”:

Klicke innerhalb des Projekts auf das Symbol “GenAI” und wähle “Agents & GenAI Models”:

Klicke hier auf “CREATE YOUR FIRST AGENT”, um zu beginnen:

Wähle den gewünschten Agententyp (in diesem Beispiel verwenden wir “Simple Visual Agent”) und klicke auf “CREATE”:

Du gelangst nun zur Konfigurationsseite des KI-Agenten:

Perfekt! Du bist bereit, den KI-Agenten mit Bright Data Web MCP-Tools auszustatten.
Schritt #7: Erstelle die Web MCP-Agent-Tools
Bevor du mit der KI-Agenten-Konfiguration fortfährst, musst du die zuvor erstellte Remote-MCP-Verbindung in KI-Agenten-Tools umwandeln.
Öffne zunächst die Seite “Agent Tools” über das Symbol “GenAI”:

Klicke auf der Seite “Agent Tools” auf “NEW AGENT TOOL”:

Wähle die Option “MCP” und drücke “CREATE”:

Konfiguriere als nächstes den Remote-MCP-Server, indem du die zuvor erstellte Verbindung “bright-data-web-mcp” auswählst. Klicke dann auf “CREATE”:

Du gelangst nun zur Konfigurationsseite der MCP-KI-Agenten-Tools. Hier kannst du die Tools testen und eine allgemeine Beschreibung für das MCP-Tool-Set definieren. Wähle alle verfügbaren Tools aus und aktiviere sie:

Wenn du den Server im Pro-Modus konfiguriert hast, siehst du den vollständigen Satz von 70+ Web-MCP-Tools:

Andernfalls siehst du nur die im Rapid (kostenlosen) Modus verfügbaren Tools.
Drücke “SAVE” in der oberen rechten Ecke. Die Bright Data Web MCP-Tools sind jetzt für deinen Dataiku-Agenten verfügbar. Gut gemacht!
Schritt #8: Deinen Dataiku-Agenten für Web-Zugang konfigurieren
Du hast jetzt alle Bausteine, die du brauchst, um deinen Bright Data-gestützten KI-Agenten für webbasierte Aufgaben fertigzustellen.
Gehe zurück zur Seite “Simple Visual Agent”. Im Dropdown “LLM” siehst du die OpenAI-Modelle aus deiner zuvor erstellten Verbindung. In diesem Beispiel verwenden wir das Modell “GPT-5.4 mini“:

Als nächstes musst du klare Anweisungen geben, um zu definieren, wie sich der Agent verhalten soll. Füge im Feld “Instructions” einen Prompt wie diesen ein:
You are a general-purpose assistant with access to the web. Use the Bright Data Web MCP tools whenever you are asked to perform web-related tasks, such as:
- Searching the web
- Fetching, reading, or scraping web pages
- Extracting structured data from supported platforms
- Running browser automation or web automation workflows
- Conducting research, investigations, fact-checking, or news lookups
- Any other task involving URLs, links, or web content
Klicke nun auf “ADD TOOL” und wähle die Option “MCP” (die dem zuvor konfigurierten Web-MCP-Toolset entspricht):

Dein fertiger webfähiger Dataiku-KI-Agent sollte so aussehen:

Mission erfüllt. Du hast erfolgreich einen Dataiku-KI-Agenten erstellt, der über MCP mit Bright Data für webbasierte Aufgaben integriert ist. Der einzige verbleibende Schritt ist, ihn zu testen!
Schritt #9: Den Agenten testen
Um zu überprüfen, ob dein KI-Agent korrekt funktioniert, führe ihn mit einer webbasierten Aufgabe aus. Schreibe zum Beispiel einen Prompt wie diesen:
Access the Best Buy "Top 100 Deals" page and retrieve the top three products listed there.
For each product, extract structured data. Then use this information to produce a detailed report comparing the three products over product name, description, price, rating if available, and key features or specifications.
Finally, conclude with a short analysis of the retailer's current marketing intent based on the selected products, such as discount strategy, promoted categories, positioning, and what this suggests about demand.
Beachte, dass dies etwas ist, was ein Standard-LLM allein nicht tun kann, da es Web-Suche und Scraping-Fähigkeiten erfordert.
Führe den Prompt aus, und folgendes sollte passieren:

Konzentriere dich auf die Best Buy-Produktvergleichstabelle:

Beachte, dass der Bericht eine detaillierte Analyse der drei Top-Produkte aus der Seite “Top 100 Deals of the Season” von Best Buy enthält, die du direkt anzeigen kannst, indem du dieselbe Seite in deinem Browser öffnest:

Insbesondere durch die Untersuchung der Agenten-Logs wirst du sehen, dass er:
- Das Web-MCP-Tool
search_engine(unterstützt durch SERP-API) aufgerufen hat, um Google nach der Best Buy Top 100 Deals-Seite zu durchsuchen. - Strukturierte SERP-Daten abgerufen und analysiert hat, um die korrekte Ziel-URL zu identifizieren.
- Auf die Seite über das Tool
scrape_as_markdown(unterstützt durch Web Unlocker API) zugegriffen hat, das eine Markdown-Version der Seite zurückgibt. - Die Top-3 Best Buy-Produkt-URLs durch Analyse des Markdown-Inhalts erkannt hat.
- Jedes Produkt mit dem Web MCP Pro-Tool
web_data_bestbuy_productsgescraped hat (das sich mit Bright Data’s Best Buy Scraper verbindet). - Alle abgerufenen Informationen im abschließenden Bericht zusammengefasst hat.
Dies bestätigt, dass die Bright Data Web MCP-Tools verwendet werden, um den KI-Agenten in realen Web-Daten zu verankern.
Et voilà! Die Integration von Dataiku + Bright Data in einem KI-Agenten funktioniert hervorragend. Beachte, dass dies nur ein Beispiel war. Dank der Bright Data-Integration kann dieser Agent viele weitere Anwendungsfälle und Szenarien abdecken!
Nächste Schritte
Für einen praxistauglichen, Enterprise-ready Dataiku Cloud KI-Agenten solltest du zusätzliche Drittanbieter-Verbindungen wie Slack, Google Drive und andere Kollaborationstools hinzufügen. Außerdem solltest du Datenverbindungen mit deinen Datenbanken integrieren.
Das ermöglicht es, die generierten Ergebnisse automatisch in den Workflows und Systemen deiner Organisation zu teilen. Du solltest auch in Betracht ziehen, deinen Agenten bereitzustellen, damit du ihn in der Produktion einsetzen kannst.
Fazit
In diesem Artikel hast du gesehen, wie du Dataiku-KI-Agenten erstellst und sie mit realem Web-Zugang über den Bright Data Web MCP erweiterst. Insbesondere hast du gesehen, wie und warum du einen Dataiku-Agenten mit Web-MCP-Tools integrierst, um seine Ausgaben in Live-, verifizierbaren Web-Daten zu verankern.
Diese Integration bringt Dataiku-Agenten auf die nächste Stufe. Sie ermöglicht es ihnen, das Web zu durchsuchen, autonom neue Quellen zu entdecken, strukturierte Daten zu extrahieren und in Echtzeit mit realen Websites zu interagieren.
Registriere dich noch heute kostenlos bei Bright Data und beginne mit der Integration KI-fähiger Web-Tools!