In diesem Leitfaden werden Sie Folgendes erfahren:
- Was Dify ist und warum es verwendet wird.
- Der Grund, warum Sie es mit einem All-in-One Scraping Plugin integrieren sollten.
- Vorteile der Integration von Dify mit dem Bright Data Scraping Plugin.
- Eine Schritt-für-Schritt-Anleitung zur Erstellung eines Dify Scraping-Workflows.
Lasst uns eintauchen!
Dify: Die Kraft der Low-Code-KI-Entwicklung
Dify ist eine Open-Source-Plattform für die Entwicklung von LLM-Anwendungen. Sie arbeitet als LLM-ops-Lösung, die die Erstellung von KI-gesteuerten Anwendungen vereinfacht.
Genauer gesagt, hilft es Entwicklern bei der Erstellung und Einführung gebrauchsfertiger KI-Anwendungen durch die Bereitstellung:
- Visueller Workflow-Builder: Entwerfen Sie mehrstufige KI-Prozesse über eine Drag-and-Drop-Oberfläche. Sie können verschiedene Modelle, Tools und Logik miteinander verknüpfen, ohne sich in Standardcode zu verzetteln.
- Modell-Agnostizismus: Integration mit einer breiten Palette von LLMs, von proprietären Modellen wie der GPT-Serie von OpenAI bis hin zu verschiedenen Open-Source-Alternativen. Dies gibt Ihnen die Flexibilität, das beste Modell für Ihren Anwendungsfall zu wählen.
- Backend-as-a-Service (BaaS): Erledigen Sie die komplexen Aufgaben des Hostings, der Skalierung und der Verwaltung der Backend-Infrastruktur. So können Sie sich auf die Nutzung der KI-Funktionen konzentrieren, anstatt die zugrunde liegende Infrastruktur zu verwalten.
- Erweiterbarkeit: Einfache Erweiterung der Funktionalität durch Plugins und benutzerdefinierte Tools von Drittanbietern. Das macht Dify anpassungsfähig für eine Vielzahl von Anwendungsfällen.
Die Notwendigkeit eines dedizierten Scraping-Plugins in Dify
Web-Scraping in großem Maßstab birgt eine Menge Herausforderungen. Websites verwenden Anti-Bot-Maßnahmen, die einfache Datenabrufversuche leicht blockieren können. Daher ist der Aufbau und die Pflege eines Systems zur Überwindung dieser Hürden komplex und ressourcenintensiv.
Genau hier kommt das Bright Data Dify-Plugin ins Spiel. Das Plugin kümmert sich um alle zugrundeliegenden Komplexitäten, von der Proxy-Rotation und IP-Verwaltung bis hin zum Lösen von CAPTCHAs und dem Parsen von Daten. Mit anderen Worten: Es sorgt dafür, dass Ihr Dify-Agent konsistente, hochwertige Webdaten erhält.
Im Einzelnen bietet das Bright Data Plugin diese Werkzeuge:
- Strukturierte Dateneinspeisungen: Um strukturierte, organisierte Daten von über 50 Plattformen zu erhalten, wie z. B. E-Commerce-Produktseiten oder Immobilieninserate.
- Scrape als Markdown: Es entfernt Anzeigen, Navigationsleisten und andere unwichtige Elemente und liefert eine saubere, Markdown-formatierte Version des Textes.
- Suchmaschinen-Tool: Führen Sie Abfragen direkt bei Suchmaschinen wie Google, Bing, Yandex und vielen anderen durch. Sie können es verwenden, um Suchrankings für bestimmte Keywords zu überwachen, Inhalte von Wettbewerbern zu entdecken oder in SERP-RAG-Workflows.
Vorteile der Integration von Dify mit dem Bright Data Plugin
Wenn Sie die KI-Orchestrierungsfunktionen von Dify mit den Scraping-Funktionen von Bright Data verbinden, schalten Sie diese Funktionalität frei:
- Zugang zu Echtzeitdaten: Anstatt sich auf veraltete Daten zu verlassen, kann Ihr KI-Agent das Live-Web nach minutenaktuellen Informationen abfragen. Dies garantiert, dass Ihre KI-Anwendungen mit den aktuellsten verfügbaren Daten arbeiten.
- Automatisieren Sie komplexe Recherchen und Analysen: Indem Sie Daten direkt in ein LLM innerhalb eines Dify-Workflows einspeisen, können Sie Aufgaben automatisieren, die sonst stundenlange manuelle Arbeit erfordern würden. Zum Beispiel könnten Sie einen RAG-Workflow erstellen, um eine Liste von Konkurrenzprodukten auf einer E-Commerce-Website zu überwachen.
- Vereinfachen Sie die technische Komplexität: Web Scraping ist nicht einfach, da Websites ausgeklügelte Anti-Scraping-Blockierungstechniken einsetzen. Das Bright Data Plugin vermeidet diese Blockaden für Sie. Und das alles, während Dify die einfache Schnittstelle bietet, um diese Leistung zu nutzen.
- Vielseitigkeit für verschiedene Anwendungsfälle: Das Plugin stattet Sie mit mehreren Werkzeugen aus, darunter das Abrufen strukturierter Daten, das Scraping beliebiger Seiten in saubere Markdowns und die Durchführung von Suchmaschinenabfragen. Das macht die Integration von Dify und Bright Data anpassungsfähig für verschiedene Anwendungsfälle.
Integration von Dify mit Bright Data für die Zusammenfassung von Produkten: Schritt-für-Schritt-Anleitung
Es ist an der Zeit, die Integration zwischen Dify und Bright Data in einem Tutorial Schritt für Schritt zu erlernen.
Das Ziel des Arbeitsablaufs, den Sie erstellen werden, ist es, ein Amazon-Produkt als Input zu geben und seine Zusammenfassung zu erhalten. Das Produkt, das Sie verwenden werden, stammt von Amazon und ist ein Apple AirTag:
Um das Ziel des AI-Scrapings zu erreichen, werden Sie einen vierstufigen Arbeitsablauf aufbauen, indem Sie verschiedene Knoten miteinander verbinden. Jeder Knoten hat eine bestimmte Aufgabe:
- Ein “Start”-Knoten, um die Eingabevariable zu definieren, die die URL der Amazon-Produktseite ist.
- Ein “Structured Data Feeds”-Knoten nimmt diese URL und scrapt ihren Inhalt, indem er alle strukturierten Daten von der Amazon-Seite extrahiert.
- Ein “LLM”-Knoten zur Verarbeitung der gescrapten Daten. Sie werden ihn mit einer speziellen Aufforderung anweisen, die Produktzusammenfassung zu erstellen.
- Ein “End”-Knoten zur Darstellung des vom LLM generierten zusammengefassten Textes.
Dieser gesamte vierstufige AI-Scraping-Prozess ist vollständig visuell. Sie werden diese Knoten in einem einfachen Fluss verbinden und müssen keine einzige Zeile Code schreiben.
Folgen Sie den Anweisungen, um Ihren Bright Data-gesteuerten KI-Workflow für Web-Scraping in Dify zu erstellen!
Anforderungen
Um diese Anleitung zur Integration von Dify mit Bright Data nachvollziehen zu können, benötigen Sie:
- Ein Dify-Konto (ein kostenloses Konto ist ausreichend).
- Ein Bright Data-API-Schlüssel.
Wenn Sie diese noch nicht haben, verwenden Sie die obigen Links und folgen Sie den Anweisungen, um alles einzurichten.
Voraussetzungen
Um den LLM-Knoten nutzen zu können, müssen Sie zunächst die LLM-Integration in Dify einrichten. Klicken Sie dazu auf Ihr Profilbild und wählen Sie die Option “Einstellungen”:
Sie werden auf die Seite weitergeleitet, auf der Sie ein Modell auswählen können (die Registerkarte “Modellanbieter”). Sie können zum Beispiel das OpenAI-Provider-Plugin installieren:
Sehr gut! Sie sind nun bereit, Ihren Dify Web Scraping Workflow zu starten.
Schritt 1: Laden Sie das Bright Data Plugin herunter und integrieren Sie es
Laden Sie das neueste Bright Data Plugin-Paket aus dem offiziellen Dify-Repository herunter. Drücken Sie dann auf “PLUGINS” und wählen Sie die Option “Aus lokaler Paketdatei installieren”:
Wählen Sie die zuvor heruntergeladene lokale Datei aus, und klicken Sie auf die Schaltfläche “Installieren”:
Sehr gut! Das Integrationspaket von Bright Data ist jetzt geladen und auf Dify installiert.
Schritt #2: Erstellen einer neuen Dify-Anwendung
Erstellen Sie auf der Startseite des Dify-Arbeitsbereichs eine neue Anwendung von Grund auf, indem Sie wie unten gezeigt “Create from Blank” wählen:
Wählen Sie dann den Typ “Workflow” und klicken Sie auf “Erstellen”:
Nachstehend sehen Sie, wie der neue, leere Arbeitsablauf aussehen wird:
Großartig! Sie haben gerade einen neuen Dify-Workflow erstellt. Es ist an der Zeit, die erforderlichen Knoten für Web Scraping hinzuzufügen.
Schritt #3: Konfigurieren Sie die Knoten für Web Scraping
Jetzt können Sie die Knoten zu Ihrem Workflow hinzufügen und die erforderlichen Parameter für den Dify-Web-Scraping-Workflow über Bright Data festlegen.
Klicken Sie zunächst auf den Knoten “Start” und dann auf “EINGABEFELD”:
Wählen Sie als Typ “Absatz” aus, und geben Sie dem Feld “Variablenname” einen Namen. Zum Beispiel: product_url
. Ändern Sie den Wert für “Maximale Länge” auf mindestens 200. Dies ist die URL der zu durchsuchenden Zielseite. Sie müssen ihr eine Eingabe übergeben, um den Workflow zu starten.
Bestätigen Sie mit einem Klick auf die Schaltfläche “Speichern”:
Perfekt! Der Knoten “Start” ist korrekt eingerichtet.
Fahren Sie fort, indem Sie auf das “+” im Knoten “Start” klicken. Wählen Sie “Tools” > “Bright Data Web Scraper” > “Structured Data Feeds”:
Der Bright Data-Knoten fungiert als Brücke, die Ihren Dify-Workflow mit der [Bright Data AI-Infrastruktur](
/ai). Er gibt Ihrem KI-Scraping-Agenten die Möglichkeit, die benötigten Informationen aus dem Web zu scrapen.
Durch Auswahl des Tools “Structured Data Feeds” verwandeln Sie eine unübersichtliche Amazon-Produktseite in eine strukturierte JSON-Ausgabe mit vorhersehbaren Datenfeldern.
Klicken Sie nun auf “Autorisieren”, um Ihr Bright Data-API-Token einzugeben:
Wählen Sie product_url
als Eingabevariable. Auf diese Weise übergibt der Knoten “Start” den aktuellen Wert der Produkt-URL als Eingabe für den Knoten “Bright Data”.
Geben Sie dazu “/” in das Feld “Ziel-URL” ein, und es wird Ihnen eine Liste der verfügbaren Variablen angezeigt. Fügen Sie außerdem eine Beschreibung in das Feld “Beschreibung der Datenanforderung” ein:
Sehr gut! Der Knoten Bright Data ist eingerichtet. Sie können zum nächsten Knoten übergehen.
Klicken Sie auf das “+” und fügen Sie einen LLM-Knoten hinzu:
Wählen Sie im Abschnitt “MODELL” die Option “Modell konfigurieren” und wählen Sie ein LLM-Modell aus der Liste:
Fügen Sie im Abschnitt “SYSTEM” eine Eingabeaufforderung hinzu, z. B.:
You are an expert e-commerce analyst. Based on the following structured data from an Amazon product page, write a concise and helpful summary for a potential buyer.
Include the following:
- Product name.
- A one-sentence summary.
- 3-5 key features in a bulleted list.
- The overall star rating and number of reviews.
- A brief concluding sentence about who this product is for.
Data:
{{Structure_Data_Feeds.text}}
Diese Aufforderung weist den LLM an, als E-Commerce-Analyst zu agieren, um eine Zusammenfassung des gescrapten Produkts zu erstellen. Es wird auch nach bestimmten Details gefragt, die aufgenommen werden sollen, wie der Name des Produkts und einige Hauptmerkmale. Beachten Sie, dass am Ende das Textergebnis des Bright Data Plugin-Knotens eingefügt wird.
So sieht der ausgefüllte Abschnitt aus:
Fügen Sie unter dem Abschnitt “Daten” der Eingabeaufforderung den Text
als Eingabevariable hinzu. Dies ermöglicht es dem LLM, den Inhalt zu verwenden, den der Knoten Bright Data von der Ziel-URL abgerufen hat. Wenn Sie auf “/” klicken, erhalten Sie die Liste der verfügbaren Variablen, die Sie auswählen können.
Gut! Sie können nun den letzten Knoten zum Workflow hinzufügen.
Die Ausgabe des Workflows kann durch Hinzufügen eines “End”-Knotens erreicht werden:
Die Ausgangsvariable muss eine Zeichenkette sein, die vom LLM-Knoten kommt. Klicken Sie dazu auf den Abschnitt “OUTPUT VARIABLE” und wählen Sie “text” unter “LLM”:
Erstaunlich! Ihr Arbeitsablauf ist korrekt eingerichtet. Sie sind jetzt bereit, ihn auszuführen.
Schritt Nr. 4: Ausführen des Workflows
Nachfolgend sehen Sie den Web-Scraping-Workflow in Dify über das Bright Data Plugin:
Wie Sie sehen können, besteht es aus nur vier Knoten – genau wie in der Einleitung zu diesem Kapitel erwartet. Außerdem mussten Sie nicht eine einzige Zeile Code schreiben, um das Ziel zu erreichen!
Um den Workflow auszuführen, klicken Sie auf “Ausführen”. An dieser Stelle müssen Sie die URL des Amazon-Produkts unter dem Feld “product_url” hinzufügen. Klicken Sie dann auf “Start Run”, um den Dify-Web-Scraping-Workflow zu starten:
Das Ergebnis wird auf der Registerkarte “Ergebnis” angezeigt:
Nachstehend finden Sie das Ergebnis als Text:
**Product Name:** Apple AirTag
Stay connected to your valuables with the Apple AirTag — a small, stylish tracker designed to help you locate personal items like keys, wallets, luggage, and even pets with ease using your iPhone or iPad.
**Key Features:**
- Seamless one-tap setup with iPhone or iPad via the Find My app.
- Precision Finding with Ultra Wideband technology (on compatible iPhone models) for accurate item location.
- Can be shared with up to 5 people, great for tracking shared items like keys or bags.
- Loud built-in speaker to help you locate your item or use voice commands with Siri.
- Water and dust resistant (IP67 rated) with a replaceable battery lasting over a year.
**Rating:** ⭐ 4.6 out of 5 stars, based on 32,227 customer reviews
This is an ideal purchase for Apple users who frequently misplace items or need a smart, subtle way to keep tabs on essentials — from travel gear to curious pets.
Das LLM hat, wie gewünscht, das gemeldet, wonach Sie in der Aufforderung gefragt haben:
- Eine Zusammenfassung des Produkts in einem Satz.
- 5 Hauptmerkmale.
- Die Bewertung.
- Ein schlüssiger Satz, der sagt, für wen dieses Produkt bestimmt ist.
Wenn Sie jemals versucht haben, große E-Commerce-Websites wie Amazon zu scrapen, wissen Sie, wie schwierig das ist:
Hier macht die Bright Data-Integration den entscheidenden Unterschied. Sie hat alle komplexen Anti-Scraping-Maßnahmen hinter den Kulissen durchgeführt und dafür gesorgt, dass der Datenabruf wie erwartet funktioniert.
Et voilà! Sie haben Ihr erstes Projekt zur Integration von Dify mit Bright Data erfolgreich abgeschlossen.
Schlussfolgerung
In diesem Artikel haben Sie gelernt, wie Sie mit Dify einen KI-Scraping-Workflow ohne Code erstellen können. Dies wäre ohne das Bright Data Dify-Plugin nicht möglich gewesen. Wie hier gezeigt, bietet dieses Plugin mehrere fortschrittliche Tools für Web-Scraping in KI-Workflows.
Eine der größten Herausforderungen beim Aufbau eines zuverlässigen Scraping-Workflows für Ihre KI-Agenten besteht darin, Zugang zu hochwertigen Webdaten zu haben. Dies erfordert Tools zum Abrufen, Validieren und Umwandeln von Webinhalten. Genau dafür ist die KI-Infrastruktur von Bright Data ausgelegt.
Erstellen Sie ein kostenloses Bright Data-Konto und experimentieren Sie noch heute mit unseren KI-fähigen Datentools!