Blog / AI
AI

KI-gestütztes Web-Scraping in Dify über einen No-Code-Workflow

Beherrschen Sie Web Scraping mit Dify und Bright Data, um KI-Workflows ohne Code für eine schnelle und zuverlässige Datenextraktion zu erstellen.
11 min lesen
Web Scraping With Dify

In diesem Leitfaden werden Sie Folgendes erfahren:

  • Was Dify ist und warum es verwendet wird.
  • Der Grund, warum Sie es mit einem All-in-One Scraping Plugin integrieren sollten.
  • Vorteile der Integration von Dify mit dem Bright Data Scraping Plugin.
  • Eine Schritt-für-Schritt-Anleitung zur Erstellung eines Dify Scraping-Workflows.

Lasst uns eintauchen!

Dify: Die Kraft der Low-Code-KI-Entwicklung

Dify ist eine Open-Source-Plattform für die Entwicklung von LLM-Anwendungen. Sie arbeitet als LLM-ops-Lösung, die die Erstellung von KI-gesteuerten Anwendungen vereinfacht.

Genauer gesagt, hilft es Entwicklern bei der Erstellung und Einführung gebrauchsfertiger KI-Anwendungen durch die Bereitstellung:

  • Visueller Workflow-Builder: Entwerfen Sie mehrstufige KI-Prozesse über eine Drag-and-Drop-Oberfläche. Sie können verschiedene Modelle, Tools und Logik miteinander verknüpfen, ohne sich in Standardcode zu verzetteln.
  • Modell-Agnostizismus: Integration mit einer breiten Palette von LLMs, von proprietären Modellen wie der GPT-Serie von OpenAI bis hin zu verschiedenen Open-Source-Alternativen. Dies gibt Ihnen die Flexibilität, das beste Modell für Ihren Anwendungsfall zu wählen.
  • Backend-as-a-Service (BaaS): Erledigen Sie die komplexen Aufgaben des Hostings, der Skalierung und der Verwaltung der Backend-Infrastruktur. So können Sie sich auf die Nutzung der KI-Funktionen konzentrieren, anstatt die zugrunde liegende Infrastruktur zu verwalten.
  • Erweiterbarkeit: Einfache Erweiterung der Funktionalität durch Plugins und benutzerdefinierte Tools von Drittanbietern. Das macht Dify anpassungsfähig für eine Vielzahl von Anwendungsfällen.

Die Notwendigkeit eines dedizierten Scraping-Plugins in Dify

Web-Scraping in großem Maßstab birgt eine Menge Herausforderungen. Websites verwenden Anti-Bot-Maßnahmen, die einfache Datenabrufversuche leicht blockieren können. Daher ist der Aufbau und die Pflege eines Systems zur Überwindung dieser Hürden komplex und ressourcenintensiv.

Genau hier kommt das Bright Data Dify-Plugin ins Spiel. Das Plugin kümmert sich um alle zugrundeliegenden Komplexitäten, von der Proxy-Rotation und IP-Verwaltung bis hin zum Lösen von CAPTCHAs und dem Parsen von Daten. Mit anderen Worten: Es sorgt dafür, dass Ihr Dify-Agent konsistente, hochwertige Webdaten erhält.

Im Einzelnen bietet das Bright Data Plugin diese Werkzeuge:

  • Strukturierte Dateneinspeisungen: Um strukturierte, organisierte Daten von über 50 Plattformen zu erhalten, wie z. B. E-Commerce-Produktseiten oder Immobilieninserate.
  • Scrape als Markdown: Es entfernt Anzeigen, Navigationsleisten und andere unwichtige Elemente und liefert eine saubere, Markdown-formatierte Version des Textes.
  • Suchmaschinen-Tool: Führen Sie Abfragen direkt bei Suchmaschinen wie Google, Bing, Yandex und vielen anderen durch. Sie können es verwenden, um Suchrankings für bestimmte Keywords zu überwachen, Inhalte von Wettbewerbern zu entdecken oder in SERP-RAG-Workflows.

Vorteile der Integration von Dify mit dem Bright Data Plugin

Wenn Sie die KI-Orchestrierungsfunktionen von Dify mit den Scraping-Funktionen von Bright Data verbinden, schalten Sie diese Funktionalität frei:

  • Zugang zu Echtzeitdaten: Anstatt sich auf veraltete Daten zu verlassen, kann Ihr KI-Agent das Live-Web nach minutenaktuellen Informationen abfragen. Dies garantiert, dass Ihre KI-Anwendungen mit den aktuellsten verfügbaren Daten arbeiten.
  • Automatisieren Sie komplexe Recherchen und Analysen: Indem Sie Daten direkt in ein LLM innerhalb eines Dify-Workflows einspeisen, können Sie Aufgaben automatisieren, die sonst stundenlange manuelle Arbeit erfordern würden. Zum Beispiel könnten Sie einen RAG-Workflow erstellen, um eine Liste von Konkurrenzprodukten auf einer E-Commerce-Website zu überwachen.
  • Vereinfachen Sie die technische Komplexität: Web Scraping ist nicht einfach, da Websites ausgeklügelte Anti-Scraping-Blockierungstechniken einsetzen. Das Bright Data Plugin vermeidet diese Blockaden für Sie. Und das alles, während Dify die einfache Schnittstelle bietet, um diese Leistung zu nutzen.
  • Vielseitigkeit für verschiedene Anwendungsfälle: Das Plugin stattet Sie mit mehreren Werkzeugen aus, darunter das Abrufen strukturierter Daten, das Scraping beliebiger Seiten in saubere Markdowns und die Durchführung von Suchmaschinenabfragen. Das macht die Integration von Dify und Bright Data anpassungsfähig für verschiedene Anwendungsfälle.

Integration von Dify mit Bright Data für die Zusammenfassung von Produkten: Schritt-für-Schritt-Anleitung

Es ist an der Zeit, die Integration zwischen Dify und Bright Data in einem Tutorial Schritt für Schritt zu erlernen.

Das Ziel des Arbeitsablaufs, den Sie erstellen werden, ist es, ein Amazon-Produkt als Input zu geben und seine Zusammenfassung zu erhalten. Das Produkt, das Sie verwenden werden, stammt von Amazon und ist ein Apple AirTag:

Der Apple AirTag von Amazon

Um das Ziel des AI-Scrapings zu erreichen, werden Sie einen vierstufigen Arbeitsablauf aufbauen, indem Sie verschiedene Knoten miteinander verbinden. Jeder Knoten hat eine bestimmte Aufgabe:

  • Ein “Start”-Knoten, um die Eingabevariable zu definieren, die die URL der Amazon-Produktseite ist.
  • Ein “Structured Data Feeds”-Knoten nimmt diese URL und scrapt ihren Inhalt, indem er alle strukturierten Daten von der Amazon-Seite extrahiert.
  • Ein “LLM”-Knoten zur Verarbeitung der gescrapten Daten. Sie werden ihn mit einer speziellen Aufforderung anweisen, die Produktzusammenfassung zu erstellen.
  • Ein “End”-Knoten zur Darstellung des vom LLM generierten zusammengefassten Textes.

Dieser gesamte vierstufige AI-Scraping-Prozess ist vollständig visuell. Sie werden diese Knoten in einem einfachen Fluss verbinden und müssen keine einzige Zeile Code schreiben.

Folgen Sie den Anweisungen, um Ihren Bright Data-gesteuerten KI-Workflow für Web-Scraping in Dify zu erstellen!

Anforderungen

Um diese Anleitung zur Integration von Dify mit Bright Data nachvollziehen zu können, benötigen Sie:

Wenn Sie diese noch nicht haben, verwenden Sie die obigen Links und folgen Sie den Anweisungen, um alles einzurichten.

Voraussetzungen

Um den LLM-Knoten nutzen zu können, müssen Sie zunächst die LLM-Integration in Dify einrichten. Klicken Sie dazu auf Ihr Profilbild und wählen Sie die Option “Einstellungen”:

Zu den Einstellungen gehen

Sie werden auf die Seite weitergeleitet, auf der Sie ein Modell auswählen können (die Registerkarte “Modellanbieter”). Sie können zum Beispiel das OpenAI-Provider-Plugin installieren:

Auswahl eines Modells

Sehr gut! Sie sind nun bereit, Ihren Dify Web Scraping Workflow zu starten.

Schritt 1: Laden Sie das Bright Data Plugin herunter und integrieren Sie es

Laden Sie das neueste Bright Data Plugin-Paket aus dem offiziellen Dify-Repository herunter. Drücken Sie dann auf “PLUGINS” und wählen Sie die Option “Aus lokaler Paketdatei installieren”:

Laden des neuesten Bright Data Plugins für Dify

Wählen Sie die zuvor heruntergeladene lokale Datei aus, und klicken Sie auf die Schaltfläche “Installieren”:

Installieren des neuesten Bright Data-Plugins für Dify

Sehr gut! Das Integrationspaket von Bright Data ist jetzt geladen und auf Dify installiert.

Schritt #2: Erstellen einer neuen Dify-Anwendung

Erstellen Sie auf der Startseite des Dify-Arbeitsbereichs eine neue Anwendung von Grund auf, indem Sie wie unten gezeigt “Create from Blank” wählen:

Erstellen einer neuen Anwendung

Wählen Sie dann den Typ “Workflow” und klicken Sie auf “Erstellen”:

Erstellen eines neuen Workflows

Nachstehend sehen Sie, wie der neue, leere Arbeitsablauf aussehen wird:

Ihr neuer Arbeitsablauf mit Dify

Großartig! Sie haben gerade einen neuen Dify-Workflow erstellt. Es ist an der Zeit, die erforderlichen Knoten für Web Scraping hinzuzufügen.

Schritt #3: Konfigurieren Sie die Knoten für Web Scraping

Jetzt können Sie die Knoten zu Ihrem Workflow hinzufügen und die erforderlichen Parameter für den Dify-Web-Scraping-Workflow über Bright Data festlegen.

Klicken Sie zunächst auf den Knoten “Start” und dann auf “EINGABEFELD”:

Einrichten des Startknotens

Wählen Sie als Typ “Absatz” aus, und geben Sie dem Feld “Variablenname” einen Namen. Zum Beispiel: product_url. Ändern Sie den Wert für “Maximale Länge” auf mindestens 200. Dies ist die URL der zu durchsuchenden Zielseite. Sie müssen ihr eine Eingabe übergeben, um den Workflow zu starten.

Bestätigen Sie mit einem Klick auf die Schaltfläche “Speichern”:

Vergabe eines Namens für das variable Feld

Perfekt! Der Knoten “Start” ist korrekt eingerichtet.

Fahren Sie fort, indem Sie auf das “+” im Knoten “Start” klicken. Wählen Sie “Tools” > “Bright Data Web Scraper” > “Structured Data Feeds”:

Hinzufügen von Bright Data Web Scraper zum Arbeitsablauf

Der Bright Data-Knoten fungiert als Brücke, die Ihren Dify-Workflow mit der [Bright Data AI-Infrastruktur](
/ai). Er gibt Ihrem KI-Scraping-Agenten die Möglichkeit, die benötigten Informationen aus dem Web zu scrapen.

Durch Auswahl des Tools “Structured Data Feeds” verwandeln Sie eine unübersichtliche Amazon-Produktseite in eine strukturierte JSON-Ausgabe mit vorhersehbaren Datenfeldern.

Klicken Sie nun auf “Autorisieren”, um Ihr Bright Data-API-Token einzugeben:

Einfügen des Bright Data-API-Tokens

Wählen Sie product_url als Eingabevariable. Auf diese Weise übergibt der Knoten “Start” den aktuellen Wert der Produkt-URL als Eingabe für den Knoten “Bright Data”.

Geben Sie dazu “/” in das Feld “Ziel-URL” ein, und es wird Ihnen eine Liste der verfügbaren Variablen angezeigt. Fügen Sie außerdem eine Beschreibung in das Feld “Beschreibung der Datenanforderung” ein:

Hinzufügen einer Ziel-URL

Sehr gut! Der Knoten Bright Data ist eingerichtet. Sie können zum nächsten Knoten übergehen.

Klicken Sie auf das “+” und fügen Sie einen LLM-Knoten hinzu:

Hinzufügen eines LLM-Knotens

Wählen Sie im Abschnitt “MODELL” die Option “Modell konfigurieren” und wählen Sie ein LLM-Modell aus der Liste:

Auswahl eines LLM-Modells

Fügen Sie im Abschnitt “SYSTEM” eine Eingabeaufforderung hinzu, z. B.:

You are an expert e-commerce analyst. Based on the following structured data from an Amazon product page, write a concise and helpful summary for a potential buyer.

Include the following:
- Product name.
- A one-sentence summary.
- 3-5 key features in a bulleted list.
- The overall star rating and number of reviews.
- A brief concluding sentence about who this product is for.

Data:
{{Structure_Data_Feeds.text}}

Diese Aufforderung weist den LLM an, als E-Commerce-Analyst zu agieren, um eine Zusammenfassung des gescrapten Produkts zu erstellen. Es wird auch nach bestimmten Details gefragt, die aufgenommen werden sollen, wie der Name des Produkts und einige Hauptmerkmale. Beachten Sie, dass am Ende das Textergebnis des Bright Data Plugin-Knotens eingefügt wird.

So sieht der ausgefüllte Abschnitt aus:

Hinzufügen einer Eingabeaufforderung zum LLM

Fügen Sie unter dem Abschnitt “Daten” der Eingabeaufforderung den Text als Eingabevariable hinzu. Dies ermöglicht es dem LLM, den Inhalt zu verwenden, den der Knoten Bright Data von der Ziel-URL abgerufen hat. Wenn Sie auf “/” klicken, erhalten Sie die Liste der verfügbaren Variablen, die Sie auswählen können.

Gut! Sie können nun den letzten Knoten zum Workflow hinzufügen.

Die Ausgabe des Workflows kann durch Hinzufügen eines “End”-Knotens erreicht werden:

Hinzufügen des Endknotens

Die Ausgangsvariable muss eine Zeichenkette sein, die vom LLM-Knoten kommt. Klicken Sie dazu auf den Abschnitt “OUTPUT VARIABLE” und wählen Sie “text” unter “LLM”:

Konfigurieren des Endknotens

Erstaunlich! Ihr Arbeitsablauf ist korrekt eingerichtet. Sie sind jetzt bereit, ihn auszuführen.

Schritt Nr. 4: Ausführen des Workflows

Nachfolgend sehen Sie den Web-Scraping-Workflow in Dify über das Bright Data Plugin:

Der gesamte Arbeitsablauf

Wie Sie sehen können, besteht es aus nur vier Knoten – genau wie in der Einleitung zu diesem Kapitel erwartet. Außerdem mussten Sie nicht eine einzige Zeile Code schreiben, um das Ziel zu erreichen!

Um den Workflow auszuführen, klicken Sie auf “Ausführen”. An dieser Stelle müssen Sie die URL des Amazon-Produkts unter dem Feld “product_url” hinzufügen. Klicken Sie dann auf “Start Run”, um den Dify-Web-Scraping-Workflow zu starten:

Ausführen des Arbeitsablaufs

Das Ergebnis wird auf der Registerkarte “Ergebnis” angezeigt:

Das Ergebnis

Nachstehend finden Sie das Ergebnis als Text:

**Product Name:** Apple AirTag

Stay connected to your valuables with the Apple AirTag — a small, stylish tracker designed to help you locate personal items like keys, wallets, luggage, and even pets with ease using your iPhone or iPad.

**Key Features:**
- Seamless one-tap setup with iPhone or iPad via the Find My app.
- Precision Finding with Ultra Wideband technology (on compatible iPhone models) for accurate item location.
- Can be shared with up to 5 people, great for tracking shared items like keys or bags.
- Loud built-in speaker to help you locate your item or use voice commands with Siri.
- Water and dust resistant (IP67 rated) with a replaceable battery lasting over a year.

**Rating:** ⭐ 4.6 out of 5 stars, based on 32,227 customer reviews

This is an ideal purchase for Apple users who frequently misplace items or need a smart, subtle way to keep tabs on essentials — from travel gear to curious pets.

Das LLM hat, wie gewünscht, das gemeldet, wonach Sie in der Aufforderung gefragt haben:

  • Eine Zusammenfassung des Produkts in einem Satz.
  • 5 Hauptmerkmale.
  • Die Bewertung.
  • Ein schlüssiger Satz, der sagt, für wen dieses Produkt bestimmt ist.

Wenn Sie jemals versucht haben, große E-Commerce-Websites wie Amazon zu scrapen, wissen Sie, wie schwierig das ist:

Hier macht die Bright Data-Integration den entscheidenden Unterschied. Sie hat alle komplexen Anti-Scraping-Maßnahmen hinter den Kulissen durchgeführt und dafür gesorgt, dass der Datenabruf wie erwartet funktioniert.

Et voilà! Sie haben Ihr erstes Projekt zur Integration von Dify mit Bright Data erfolgreich abgeschlossen.

Schlussfolgerung

In diesem Artikel haben Sie gelernt, wie Sie mit Dify einen KI-Scraping-Workflow ohne Code erstellen können. Dies wäre ohne das Bright Data Dify-Plugin nicht möglich gewesen. Wie hier gezeigt, bietet dieses Plugin mehrere fortschrittliche Tools für Web-Scraping in KI-Workflows.

Eine der größten Herausforderungen beim Aufbau eines zuverlässigen Scraping-Workflows für Ihre KI-Agenten besteht darin, Zugang zu hochwertigen Webdaten zu haben. Dies erfordert Tools zum Abrufen, Validieren und Umwandeln von Webinhalten. Genau dafür ist die KI-Infrastruktur von Bright Data ausgelegt.

Erstellen Sie ein kostenloses Bright Data-Konto und experimentieren Sie noch heute mit unseren KI-fähigen Datentools!

Blog / AI
AI

KI-gestütztes Web-Scraping in Dify über einen No-Code-Workflow

Beherrschen Sie Web Scraping mit Dify und Bright Data, um KI-Workflows ohne Code für eine schnelle und zuverlässige Datenextraktion zu erstellen.
11 min lesen
Web Scraping With Dify

In diesem Leitfaden werden Sie Folgendes erfahren:

  • Was Dify ist und warum es verwendet wird.
  • Der Grund, warum Sie es mit einem All-in-One Scraping Plugin integrieren sollten.
  • Vorteile der Integration von Dify mit dem Bright Data Scraping Plugin.
  • Eine Schritt-für-Schritt-Anleitung zur Erstellung eines Dify Scraping-Workflows.

Lasst uns eintauchen!

Dify: Die Kraft der Low-Code-KI-Entwicklung

Dify ist eine Open-Source-Plattform für die Entwicklung von LLM-Anwendungen. Sie arbeitet als LLM-ops-Lösung, die die Erstellung von KI-gesteuerten Anwendungen vereinfacht.

Genauer gesagt, hilft es Entwicklern bei der Erstellung und Einführung gebrauchsfertiger KI-Anwendungen durch die Bereitstellung:

  • Visueller Workflow-Builder: Entwerfen Sie mehrstufige KI-Prozesse über eine Drag-and-Drop-Oberfläche. Sie können verschiedene Modelle, Tools und Logik miteinander verknüpfen, ohne sich in Standardcode zu verzetteln.
  • Modell-Agnostizismus: Integration mit einer breiten Palette von LLMs, von proprietären Modellen wie der GPT-Serie von OpenAI bis hin zu verschiedenen Open-Source-Alternativen. Dies gibt Ihnen die Flexibilität, das beste Modell für Ihren Anwendungsfall zu wählen.
  • Backend-as-a-Service (BaaS): Erledigen Sie die komplexen Aufgaben des Hostings, der Skalierung und der Verwaltung der Backend-Infrastruktur. So können Sie sich auf die Nutzung der KI-Funktionen konzentrieren, anstatt die zugrunde liegende Infrastruktur zu verwalten.
  • Erweiterbarkeit: Einfache Erweiterung der Funktionalität durch Plugins und benutzerdefinierte Tools von Drittanbietern. Das macht Dify anpassungsfähig für eine Vielzahl von Anwendungsfällen.

Die Notwendigkeit eines dedizierten Scraping-Plugins in Dify

Web-Scraping in großem Maßstab birgt eine Menge Herausforderungen. Websites verwenden Anti-Bot-Maßnahmen, die einfache Datenabrufversuche leicht blockieren können. Daher ist der Aufbau und die Pflege eines Systems zur Überwindung dieser Hürden komplex und ressourcenintensiv.

Genau hier kommt das Bright Data Dify-Plugin ins Spiel. Das Plugin kümmert sich um alle zugrundeliegenden Komplexitäten, von der Proxy-Rotation und IP-Verwaltung bis hin zum Lösen von CAPTCHAs und dem Parsen von Daten. Mit anderen Worten: Es sorgt dafür, dass Ihr Dify-Agent konsistente, hochwertige Webdaten erhält.

Im Einzelnen bietet das Bright Data Plugin diese Werkzeuge:

  • Strukturierte Dateneinspeisungen: Um strukturierte, organisierte Daten von über 50 Plattformen zu erhalten, wie z. B. E-Commerce-Produktseiten oder Immobilieninserate.
  • Scrape als Markdown: Es entfernt Anzeigen, Navigationsleisten und andere unwichtige Elemente und liefert eine saubere, Markdown-formatierte Version des Textes.
  • Suchmaschinen-Tool: Führen Sie Abfragen direkt bei Suchmaschinen wie Google, Bing, Yandex und vielen anderen durch. Sie können es verwenden, um Suchrankings für bestimmte Keywords zu überwachen, Inhalte von Wettbewerbern zu entdecken oder in SERP-RAG-Workflows.

Vorteile der Integration von Dify mit dem Bright Data Plugin

Wenn Sie die KI-Orchestrierungsfunktionen von Dify mit den Scraping-Funktionen von Bright Data verbinden, schalten Sie diese Funktionalität frei:

  • Zugang zu Echtzeitdaten: Anstatt sich auf veraltete Daten zu verlassen, kann Ihr KI-Agent das Live-Web nach minutenaktuellen Informationen abfragen. Dies garantiert, dass Ihre KI-Anwendungen mit den aktuellsten verfügbaren Daten arbeiten.
  • Automatisieren Sie komplexe Recherchen und Analysen: Indem Sie Daten direkt in ein LLM innerhalb eines Dify-Workflows einspeisen, können Sie Aufgaben automatisieren, die sonst stundenlange manuelle Arbeit erfordern würden. Zum Beispiel könnten Sie einen RAG-Workflow erstellen, um eine Liste von Konkurrenzprodukten auf einer E-Commerce-Website zu überwachen.
  • Vereinfachen Sie die technische Komplexität: Web Scraping ist nicht einfach, da Websites ausgeklügelte Anti-Scraping-Blockierungstechniken einsetzen. Das Bright Data Plugin vermeidet diese Blockaden für Sie. Und das alles, während Dify die einfache Schnittstelle bietet, um diese Leistung zu nutzen.
  • Vielseitigkeit für verschiedene Anwendungsfälle: Das Plugin stattet Sie mit mehreren Werkzeugen aus, darunter das Abrufen strukturierter Daten, das Scraping beliebiger Seiten in saubere Markdowns und die Durchführung von Suchmaschinenabfragen. Das macht die Integration von Dify und Bright Data anpassungsfähig für verschiedene Anwendungsfälle.

Integration von Dify mit Bright Data für die Zusammenfassung von Produkten: Schritt-für-Schritt-Anleitung

Es ist an der Zeit, die Integration zwischen Dify und Bright Data in einem Tutorial Schritt für Schritt zu erlernen.

Das Ziel des Arbeitsablaufs, den Sie erstellen werden, ist es, ein Amazon-Produkt als Input zu geben und seine Zusammenfassung zu erhalten. Das Produkt, das Sie verwenden werden, stammt von Amazon und ist ein Apple AirTag:

Der Apple AirTag von Amazon

Um das Ziel des AI-Scrapings zu erreichen, werden Sie einen vierstufigen Arbeitsablauf aufbauen, indem Sie verschiedene Knoten miteinander verbinden. Jeder Knoten hat eine bestimmte Aufgabe:

  • Ein “Start”-Knoten, um die Eingabevariable zu definieren, die die URL der Amazon-Produktseite ist.
  • Ein “Structured Data Feeds”-Knoten nimmt diese URL und scrapt ihren Inhalt, indem er alle strukturierten Daten von der Amazon-Seite extrahiert.
  • Ein “LLM”-Knoten zur Verarbeitung der gescrapten Daten. Sie werden ihn mit einer speziellen Aufforderung beauftragen, die Produktzusammenfassung zu erstellen.
  • Ein “End”-Knoten zur Darstellung des vom LLM generierten zusammengefassten Textes.

Dieser gesamte vierstufige AI-Scraping-Prozess ist vollständig visuell. Sie werden diese Knoten in einem einfachen Fluss verbinden und müssen keine einzige Zeile Code schreiben.

Folgen Sie den Anweisungen, um Ihren Bright Data-gesteuerten KI-Workflow für Web-Scraping in Dify zu erstellen!

Anforderungen

Um diese Anleitung zur Integration von Dify mit Bright Data nachvollziehen zu können, benötigen Sie:

Wenn Sie diese noch nicht haben, verwenden Sie die obigen Links und folgen Sie den Anweisungen, um alles einzurichten.

Voraussetzungen

Um den LLM-Knoten nutzen zu können, müssen Sie zunächst die LLM-Integration in Dify einrichten. Klicken Sie dazu auf Ihr Profilbild und wählen Sie die Option “Einstellungen”:

Zu den Einstellungen gehen

Sie werden auf die Seite weitergeleitet, auf der Sie ein Modell auswählen können (die Registerkarte “Modellanbieter”). Sie können zum Beispiel das OpenAI-Provider-Plugin installieren:

Auswahl eines Modells

Sehr gut! Sie sind nun bereit, Ihren Dify Web Scraping Workflow zu starten.

Schritt 1: Laden Sie das Bright Data Plugin herunter und integrieren Sie es

Laden Sie das neueste Bright Data Plugin-Paket aus dem offiziellen Dify-Repository herunter. Drücken Sie dann auf “PLUGINS” und wählen Sie die Option “Aus lokaler Paketdatei installieren”:

Laden des neuesten Bright Data Plugins für Dify

Wählen Sie die zuvor heruntergeladene lokale Datei aus, und klicken Sie auf die Schaltfläche “Installieren”:

Installieren des neuesten Bright Data-Plugins für Dify

Sehr gut! Das Integrationspaket von Bright Data ist jetzt geladen und auf Dify installiert.

Schritt #2: Erstellen einer neuen Dify-Anwendung

Erstellen Sie auf der Startseite des Dify-Arbeitsbereichs eine neue Anwendung von Grund auf, indem Sie wie unten gezeigt “Create from Blank” wählen:

Erstellen einer neuen Anwendung

Wählen Sie dann den Typ “Workflow” und klicken Sie auf “Erstellen”:

Erstellen eines neuen Workflows

Nachstehend sehen Sie, wie der neue, leere Arbeitsablauf aussehen wird:

Ihr neuer Arbeitsablauf mit Dify

Großartig! Sie haben gerade einen neuen Dify-Workflow erstellt. Es ist an der Zeit, die erforderlichen Knoten für Web Scraping hinzuzufügen.

Schritt #3: Konfigurieren Sie die Knoten für Web Scraping

Jetzt können Sie die Knoten zu Ihrem Workflow hinzufügen und die erforderlichen Parameter für den Dify-Web-Scraping-Workflow über Bright Data festlegen.

Klicken Sie zunächst auf den Knoten “Start” und dann auf “EINGABEFELD”:

Einrichten des Startknotens

Wählen Sie “Absatz” als Typ und geben Sie dem Feld “Variablenname” einen Namen. Zum Beispiel: product_url. Ändern Sie den Wert für “Maximale Länge” auf mindestens 200. Dies ist die URL der zu durchsuchenden Zielseite. Sie müssen ihr eine Eingabe übergeben, um den Workflow zu starten.

Bestätigen Sie mit einem Klick auf die Schaltfläche “Speichern”:

Vergabe eines Namens für das variable Feld

Perfekt! Der Knoten “Start” ist korrekt eingerichtet.

Fahren Sie fort, indem Sie auf das “+” im Knoten “Start” klicken. Wählen Sie “Tools” > “Bright Data Web Scraper” > “Structured Data Feeds”:

Hinzufügen von Bright Data Web Scraper zum Arbeitsablauf

Der Bright Data-Knoten fungiert als Brücke, die Ihren Dify-Workflow mit der [Bright Data AI-Infrastruktur](
/ai). Er gibt Ihrem KI-Scraping-Agenten die Möglichkeit, die benötigten Informationen aus dem Web zu scrapen.

Durch Auswahl des Tools “Structured Data Feeds” verwandeln Sie eine unübersichtliche Amazon-Produktseite in eine strukturierte JSON-Ausgabe mit vorhersehbaren Datenfeldern.

Klicken Sie nun auf “Autorisieren”, um Ihr Bright Data-API-Token einzugeben:

Einfügen des Bright Data-API-Tokens

Wählen Sie product_url als Eingabevariable. Auf diese Weise übergibt der Knoten “Start” den aktuellen Wert der Produkt-URL als Eingabe für den Knoten “Bright Data”.

Geben Sie dazu “/” in das Feld “Ziel-URL” ein, und es wird eine Liste der verfügbaren Variablen angezeigt. Fügen Sie außerdem eine Beschreibung in das Feld “Beschreibung der Datenanforderung” ein:

Hinzufügen einer Ziel-URL

Sehr gut! Der Knoten Bright Data ist eingerichtet. Sie können zum nächsten Knoten übergehen.

Klicken Sie auf das “+” und fügen Sie einen LLM-Knoten hinzu:

Hinzufügen eines LLM-Knotens

Wählen Sie im Abschnitt “MODELL” die Option “Modell konfigurieren” und wählen Sie ein LLM-Modell aus der Liste:

Auswahl eines LLM-Modells

Fügen Sie im Abschnitt “SYSTEM” eine Eingabeaufforderung hinzu, z. B.:

You are an expert e-commerce analyst. Based on the following structured data from an Amazon product page, write a concise and helpful summary for a potential buyer.

Include the following:
- Product name.
- A one-sentence summary.
- 3-5 key features in a bulleted list.
- The overall star rating and number of reviews.
- A brief concluding sentence about who this product is for.

Data:
{{Structure_Data_Feeds.text}}

Diese Aufforderung weist den LLM an, als E-Commerce-Analyst zu agieren, um eine Zusammenfassung des gescrapten Produkts zu erstellen. Es wird auch nach bestimmten Details gefragt, die aufgenommen werden sollen, wie der Name des Produkts und einige Hauptmerkmale. Beachten Sie, dass am Ende das Textergebnis des Bright Data Plugin-Knotens eingefügt wird.

So sieht der ausgefüllte Abschnitt aus:

Hinzufügen einer Eingabeaufforderung zum LLM

Fügen Sie unter dem Abschnitt “Daten” der Eingabeaufforderung den Text als Eingabevariable hinzu. Dies ermöglicht es dem LLM, den Inhalt zu verwenden, den der Knoten Bright Data von der Ziel-URL abgerufen hat. Wenn Sie auf “/” klicken, erhalten Sie die Liste der verfügbaren Variablen, die Sie auswählen können.

Gut! Sie können nun den letzten Knoten zum Workflow hinzufügen.

Die Ausgabe des Workflows kann durch Hinzufügen eines “End”-Knotens erreicht werden:

Hinzufügen des Endknotens

Die Ausgangsvariable muss eine Zeichenkette sein, die vom LLM-Knoten kommt. Klicken Sie dazu auf den Abschnitt “OUTPUT VARIABLE” und wählen Sie “text” unter “LLM”:

Konfigurieren des Endknotens

Erstaunlich! Ihr Arbeitsablauf ist korrekt eingerichtet. Sie sind jetzt bereit, ihn auszuführen.

Schritt Nr. 4: Ausführen des Workflows

Nachfolgend sehen Sie den Web-Scraping-Workflow in Dify über das Bright Data Plugin:

Der gesamte Arbeitsablauf

Wie Sie sehen können, besteht es aus nur vier Knoten – genau wie in der Einleitung zu diesem Kapitel erwartet. Außerdem mussten Sie nicht eine einzige Zeile Code schreiben, um das Ziel zu erreichen!

Um den Workflow auszuführen, klicken Sie auf “Ausführen”. An dieser Stelle müssen Sie die URL des Amazon-Produkts unter dem Feld “product_url” hinzufügen. Klicken Sie dann auf “Start Run”, um den Dify-Web-Scraping-Workflow zu starten:

Ausführen des Arbeitsablaufs

Das Ergebnis wird auf der Registerkarte “Ergebnis” angezeigt:

Das Ergebnis

Nachstehend finden Sie das Ergebnis als Text:

**Product Name:** Apple AirTag

Stay connected to your valuables with the Apple AirTag — a small, stylish tracker designed to help you locate personal items like keys, wallets, luggage, and even pets with ease using your iPhone or iPad.

**Key Features:**
- Seamless one-tap setup with iPhone or iPad via the Find My app.
- Precision Finding with Ultra Wideband technology (on compatible iPhone models) for accurate item location.
- Can be shared with up to 5 people, great for tracking shared items like keys or bags.
- Loud built-in speaker to help you locate your item or use voice commands with Siri.
- Water and dust resistant (IP67 rated) with a replaceable battery lasting over a year.

**Rating:** ⭐ 4.6 out of 5 stars, based on 32,227 customer reviews

This is an ideal purchase for Apple users who frequently misplace items or need a smart, subtle way to keep tabs on essentials — from travel gear to curious pets.

Das LLM hat, wie gewünscht, das gemeldet, wonach Sie in der Aufforderung gefragt haben:

  • Eine Zusammenfassung des Produkts in einem Satz.
  • 5 Hauptmerkmale.
  • Die Bewertung.
  • Ein schlüssiger Satz, der sagt, für wen dieses Produkt bestimmt ist.

Wenn Sie jemals versucht haben, große E-Commerce-Websites wie Amazon zu scrapen, wissen Sie, wie schwierig das ist:

Hier macht die Bright Data-Integration den entscheidenden Unterschied. Sie hat alle komplexen Anti-Scraping-Maßnahmen hinter den Kulissen durchgeführt und dafür gesorgt, dass der Datenabruf wie erwartet funktioniert.

Et voilà! Sie haben Ihr erstes Projekt zur Integration von Dify mit Bright Data erfolgreich abgeschlossen.

Schlussfolgerung

In diesem Artikel haben Sie gelernt, wie Sie mit Dify einen KI-Scraping-Workflow ohne Code erstellen können. Dies wäre ohne das Bright Data Dify-Plugin nicht möglich gewesen. Wie hier gezeigt, bietet dieses Plugin mehrere fortschrittliche Tools für Web-Scraping in KI-Workflows.

Eine der größten Herausforderungen beim Aufbau eines zuverlässigen Scraping-Workflows für Ihre KI-Agenten besteht darin, Zugang zu hochwertigen Webdaten zu haben. Dies erfordert Tools zum Abrufen, Validieren und Umwandeln von Webinhalten. Genau dafür ist die KI-Infrastruktur von Bright Data ausgelegt.

Erstellen Sie ein kostenloses Bright Data-Konto und experimentieren Sie noch heute mit unseren KI-fähigen Datentools!