Bewertungen und Beobachtbarkeit – Messen Sie, was wichtig ist
Wir sind am letzten Tag der Launch Week angelangt. In den letzten vier Tagen haben wir Ihnen die Tools zur Erstellung produktionsreifer KI-Agenten vorgestellt:
- Tag 1: Tool-Gruppen zur Beseitigung von Kontextverunreinigungen
- Tag 2: Benutzerdefinierte Tools für chirurgische Präzision
- Tag 3: Token-Optimierung zur Maximierung der Effizienz
- Tag 4: Unternehmensintegrationen zum Abbau von Silos
Heute gehen wir auf eine der häufigsten Fragen unserer Kunden ein: Wie können Sie feststellen, ob Ihr Agent wie erwartet funktioniert?
Wir veröffentlichen: Evaluierungs-Framework und Observability-Dashboard.
Die Herausforderung: Einblick in das Verhalten des Agenten
Sie haben einen E-Commerce-Agenten entwickelt. Sie haben ihn auf die richtigen Tools ausgerichtet. Sie haben die Token-Nutzung optimiert. Jetzt benötigen Sie Transparenz in der Produktion:
- Welche Tools werden tatsächlich aufgerufen?
- Werden die Tools korrekt verwendet?
- Wo versagen die Agenten?
- Wie hoch sind Ihre tatsächlichen Nutzungs- und Kostenaufwendungen?
- Wie wirken sich neue Tool-Konfigurationen auf die Erfolgsraten aus?
Ohne Transparenz agieren Sie blind. Was Sie nicht messen können, können Sie auch nicht optimieren.
Dies ist besonders wichtig, wenn Sie mit Tool-Gruppen arbeiten. Haben Sie beim Wechsel von groups=ecommerce zu einer benutzerdefinierten Tool-Auswahl versehentlich einen wichtigen Workflow unterbrochen? Das erfahren Sie erst, wenn sich ein Kunde beschwert.
Die Lösung: Zweistufige Transparenz
Wir haben einen vollständigen Transparenz-Stack mit zwei sich ergänzenden Systemen entwickelt:
1. MCP-Evaluierungsframework (Entwicklung und Test)
Automatisiertes Test-Framework auf Basis von mcpjam, das das Verhalten von Agenten vor der Produktion validiert
2. Observability Dashboard (Produktionsüberwachung)
Echtzeit-Nutzungsanalyse-Dashboard im Control Panel von Bright Data, das jeden API-Aufruf in der Produktion verfolgt
Sehen wir uns die einzelnen Ebenen genauer an.
Ebene 1: MCP-Bewertungsframework
Was ist mcpjam?
mcpjam ist die offizielle Bewertungs-CLI für Model Context Protocol-Server. Stellen Sie sich das als „Integrationstest für KI-Agenten” vor.
Sie schreiben Testfälle als Abfragen in natürlicher Sprache, legen fest, welche Tools aufgerufen werden sollen, und mcpjam führt Ihren Agenten automatisch durch den Workflow.
Wie wir es verwenden
Wir haben eine umfassende Bewertungssuite für jede Tool-Gruppe erstellt, die wir am ersten Tag ausgeliefert haben. Wenn Sie eine neue Tool-Auswahl konfigurieren, können Sie diese Bewertungen ausführen, um vor der Bereitstellung zu überprüfen, ob alles funktioniert.
Projektstruktur
mcp-evals/
├── server-configs/ # Serververbindungskonfigurationen pro Toolgruppe
│ ├── server-config.ecommerce.json
│ ├── server-config.social.json
│ ├── server-config.business.json
│ ├── server-config.browser.json
│ └── ...
├── tool-groups.json/ # Testfälle pro Toolgruppe
│ ├── tool-groups.ecommerce.json
│ ├── tool-groups.social.json
│ ├── tool-groups.business.json
│ ├── tool-groups.browser.json
│ └── ...
└── llms.json # API-Schlüssel des LLM-Anbieters
Jede Toolgruppe erhält eine eigene Testsuite mit realistischen Abfragen, die Agenten bearbeiten können sollten.
Beispiel: E-Commerce-Bewertung
Aus mcp-evals/tool-groups.json/tool-groups.ecommerce.json:
{
"title": "Test E-Commerce – Amazon-Produktsuche",
"query": "Suche auf Amazon nach kabellosen Kopfhörern und zeige mir die Top-Produkte mit Bewertungen",
"runs": 1,
"model": "gpt-5.1-2025-11-13",
„provider”: „openai”,
„expectedToolCalls”: [„web_data_amazon_product_search”],
„selectedServers”: [„ecommerce-server”],
„advancedConfig”: {
„instructions”: „Sie sind ein Einkaufsassistent, der Benutzern hilft, Produkte auf Amazon zu finden”,
„temperature”: 0,1,
„maxSteps”: 5,
„toolChoice”: „required”
}
}
Dieser Test überprüft Folgendes:
- Der Agent interpretiert die Benutzeranfrage korrekt.
- Er ruft das richtige Tool auf (
web_data_amazon_product_search). - Er übergibt die entsprechenden Parameter (Produkt-Keyword, Amazon-URL).
- Er innerhalb der konfigurierten Zeitüberschreitung abgeschlossen wird
- Er gibt eine kohärente Antwort zurück
Ausführen von Evals: Schnellstart
Installieren Sie mcpjam:
npm install -g @mcpjam/cli
Führen Sie E-Commerce-Tool-Gruppentests aus:
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Erwartete Ausgabe:
Tests werden ausgeführt.
Verbindung zu 1 Server hergestellt: ecommerce-server.
Insgesamt 13 Tools gefunden.
2 Tests werden ausgeführt.
Test 1: E-Commerce-Test – Amazon-Produktsuche.
Verwendung von openai:gpt-5.1-2025-11-13.
Ausführung 1/1.
Benutzer: Suche auf Amazon nach kabellosen Kopfhörern und zeige mir die Top-Produkte mit Bewertungen.
[tool-call] web_data_amazon_product_search
{
"keyword": "wireless headphones",
"url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
"content": [...]
}
Assistent: Hier sind einige der derzeit besten kabellosen Kopfhörer bei Amazon...
Erwartet: [web_data_amazon_product_search]
Tatsächlich: [web_data_amazon_product_search]
PASS (23,8 s)
Tokens • Eingabe 20923 • Ausgabe 1363 • Gesamt 22286
Was getestet wird
Wir haben vom ersten Tag an Evaluierungssuiten für alle 8 Werkzeuggruppen erstellt:
| Werkzeuggruppe | Testabdeckung | Beispielabfragen |
|---|---|---|
| E-Commerce | Produktsuchen bei Amazon, Walmart, Best Buy | „Vergleiche die Preise für das iPhone 15 bei verschiedenen Händlern” |
| Soziale Medien | TikTok-Inhalte, Instagram-Beiträge, Twitter-Trends | „Trendige TikTok-Videos zum Thema KI finden“ |
| Business | LinkedIn-Profile, Crunchbase-Finanzierungsdaten, Google Maps-Standorte | „Finde das LinkedIn-Profil des CEO von Microsoft“ |
| Forschung | GitHub-Repositorys, Reuters-Nachrichten, akademische Quellen | „Finde Python-Repos für Web-Scraping mit mehr als 1.000 Sternen“ |
| Finanzen | Aktienkurse, Markttrends, Finanznachrichten | „Aktuellen Aktienkurs für NVIDIA abrufen” |
| App-Stores | iOS App Store, Google Play Bewertungen & Rezensionen | „Finden Sie die besten Meditations-Apps für iOS“ |
| Browser | Scraping-Browser-Automatisierungs-Workflows | „Navigieren Sie zu Amazon und legen Sie einen Artikel in den Warenkorb“ |
| advanced_scraping | Batch-Operationen, benutzerdefiniertes Scraping | „Produktdaten von einer benutzerdefinierten Website scrapen“ |
Jede Testsuite enthält 2–5 Kern-Testfälle, die die gängigsten Agent-Workflows für diesen Bereich abdecken.
Warum das wichtig ist
Evaluierungen bieten Ihnen:
- Regressionstests: Führen Sie nach jeder Konfigurationsänderung Evaluierungen durch, um sicherzustellen, dass Sie keine bestehenden Workflows unterbrochen haben.
- Leistungsbenchmarking: Verfolgen Sie die Token-Nutzung und Latenz über verschiedene LLM-Modelle hinweg.
- Tool-Validierung: Überprüfen Sie, ob die Tool-Auswahl-Logik korrekt funktioniert.
- Dokumentation: Testfälle dienen als ausführbare Beispiele dafür, was Ihr Agent leisten kann.
Vor den Tool-Gruppen von Day 1 hatten wir keine systematische Möglichkeit zu testen, ob der Wechsel von „groups=ecommerce” zu „groups=ecommerce,social” das Verhalten des Agenten beeinträchtigen würde. Jetzt haben wir diese Möglichkeit.
Ebene 2: Dashboard zur Beobachtbarkeit
Echtzeit-Produktionsüberwachung
Während Evals die Tests vor der Bereitstellung übernehmen, bietet Ihnen das Observability Dashboard Echtzeit-Einblick in die Produktionsnutzung.
Wir haben ein neues MCP-Nutzungsfenster in das Control Panel von Bright Data integriert, das jeden API-Aufruf über Ihren MCP-Server verfolgt.
Was Sie sehen
Das Dashboard zeigt eine umfassende Nutzungstabelle mit folgenden Informationen an:
| Datum | Tool | Kundenname | URL | Status |
|---|---|---|---|---|
| 26.11.2025, 14:32:15 | web_data_amazon_product | my-ecommerce-agent | https://amazon.com/… | Erfolg |
| 26.11.2025 14:31:52 | Suchmaschine | my-research-bot | N/A | Erfolg |
| 26.11.2025 14:30:18 | Webdaten-LinkedIn-Personenprofil | Lead-Generierungsagent | https://linkedin.com/in/… | Erfolg |
| 26.11.2025 14:29:03 | Browser-Navigation | Automatisierungsagent | https://example.com | Fehlgeschlagen |
Wichtige Kennzahlen
1. Aufschlüsselung der Tool-Nutzung
Sehen Sie, welche Tools am häufigsten aufgerufen werden:
web_data_amazon_product: 1.243 Aufrufe
search_engine: 892 Aufrufe
web_data_linkedin_person_profile: 634 Aufrufe
scrape_as_markdown: 421 Aufrufe
So erfahren Sie, welche Datensätze für Ihre Agenten am wertvollsten sind. Wenn Sie für ungenutzte Tool-Gruppen bezahlen, sehen Sie dies hier.
2. Kundenidentifizierung
Jede Agenteninstanz kann mit einem Kundennamen versehen werden (über den Parameter client_name in der Verbindungs-URL):
npx -y @brightdata/mcp
Das Dashboard gruppiert die Nutzung nach Kunden, sodass Sie die Kosten pro Agent/Workflow verfolgen können.
3. Erfolgs- vs. Misserfolgsraten
Überwachen Sie die Zuverlässigkeit der Agenten:
Gesamtanzahl der Anfragen: 3.190
Erfolgreich: 3.102 (97,2 %)
Fehlgeschlagen: 88 (2,8 %)
Klicken Sie auf fehlgeschlagene Anfragen, um Fehlerdetails anzuzeigen und Probleme zu beheben.
4. URL-Verfolgung
Bei Tools für Datensätze zeigt das Dashboard an, auf welche URLs/Ressourcen zugegriffen wurde. Dies hilft Ihnen dabei:
- Probleme mit der Ratenbegrenzung zu identifizieren (zu viele Anfragen an dieselbe Domain)
- zu verfolgen, welche bestimmten Produkte/Profile/Seiten gescrapt werden
- die Compliance zu überprüfen (sicherzustellen, dass Agenten nicht auf eingeschränkte Websites zugreifen)
So greifen Sie darauf zu
- Melden Sie sich beim Bright Data Control Panel an
- Navigieren Sie zu „MCP-Nutzung” (neuer Abschnitt in der Seitenleiste)
- Zeigen Sie Echtzeit-Nutzungsdaten für alle Ihre MCP-Verbindungen an
Filter:
- Datumsbereich (letzte 24 Stunden, 7 Tage, 30 Tage, benutzerdefiniert)
- Tool-Name (nach bestimmten Tools filtern)
- Client-Name (nach Agenteninstanz filtern)
- Status (erfolgreich/fehlgeschlagen)
Export
Laden Sie Nutzungsdaten als CSV-Datei herunter, um sie genauer zu analysieren oder in ein BI-Tool zu integrieren.
Kombinierter Workflow: Entwicklung → Produktion
So arbeiten die beiden Systeme zusammen:
Phase 1: Entwicklung (vor der Bereitstellung)
- Konfigurieren Sie Tool-Gruppen mit der Funktion „Day 1”
pnx -y @brightdata/mcp - Führen Sie Evals aus, um
dieTool-Auswahlzu validierenmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json - Überprüfen Sie die Ergebnisse: Stellen Sie sicher, dass alle Tests bestanden wurden
- Die Token-Nutzung liegt innerhalb des Budgets
- Die richtigen Tools werden aufgerufen
- Die Antworten sind korrekt
- Iterieren: Wenn Tests fehlschlagen, passen Sie die Toolauswahl oder die Systemaufforderungen an
Phase 2: Produktion (nach der Bereitstellung)
- Agent mit
Client-Namens-Taggingnpx -y @brightdata/mcpbereitstellen - Überwachen Sie das Dashboard: Überprüfen Sie die Echtzeit-Nutzung
- Stimmen die Erfolgsraten mit den Bewertungsergebnissen überein?
- Werden unerwartete Tools aufgerufen?
- Gibt es Probleme mit der Ratenbegrenzung oder der Authentifizierung?
- Trends analysieren: Achten Sie im Laufe der Zeit auf Folgendes:
- Nutzungsspitzen (muss skaliert werden?)
- Änderungen im Fehlermuster (Verschlechterung der Tools?)
- Kostenanomalien (Token-Nutzung optimieren)
- Optimieren: Nutzen Sie die Erkenntnisse aus dem Dashboard, um die Tool-Auswahl zu verfeinern
- Entfernen Sie ungenutzte Tools (Reduzierung der Token-Kosten)
- Fehlende Tools hinzufügen (Erfolgsraten verbessern)
- Anpassen der Ratenlimits (Vermeiden von Drosselung)
- Bewertungen erneut durchführen: Führen Sie nach jeder Konfigurationsänderung erneut Bewertungen durch, um sicherzustellen, dass keine Rückschritte auftreten
Leistungsstatistiken: Rückblick auf die Startwoche
Fassen wir alles zusammen. Hier sind die kumulativen Auswirkungen aller 5 Tage:
Tag 1: Tool-Gruppen
Auswirkung: 60 % weniger System-Prompt-Token
Beispiel: Vollständige Suite (über 200 Tools) → Einzelne Gruppe (25 Tools)
Token-Einsparungen: ~8.000 Token pro Anfrage (Systemaufforderung)
Tag 2: Benutzerdefinierte Tools
Auswirkung: 85 % Reduzierung gegenüber der vollständigen Suite bei Auswahl von 4 spezifischen Tools
Beispiel: Vollständige Suite (über 200 Tools) → Benutzerdefiniert (4 Tools)
Token-Einsparungen: ~9.500 Token pro Anfrage (Systemaufforderung)
Tag 3: Token-Optimierung
Auswirkung: 30–60 % Reduzierung der Tool-Antwort-Token
Beispiel: Web-Scraping + Tools für Datensätze in einem einzigen Workflow
Token-Einsparungen: ~10.250 Token pro Anfrage (Tool-Ausgaben)
Kombinierter Effekt: E-Commerce-Agent-Workflow
Szenario: „Finde die 5 besten Amazon-Kopfhörer unter 100 $ und fasse die Bewertungen zusammen”
| Konfiguration | Systemaufforderung | Tool-Ausgaben | Gesamtzahl der Tokens | Kosten pro Anfrage |
|---|---|---|---|---|
| Vollständige Suite (ohne Optimierung) | 15.000 | 22.500 | 37.500 | 0,45 |
| + Werkzeuggruppen | 6.000 | 22.500 | 28.500 | 0,34 |
| + Benutzerdefinierte Werkzeuge | 2.250 | 22.500 | 24.750 | 0,30 |
| + Token-Optimierung | 2.250 | 12.250 | 14.500 | 0,17 |
Gesamtersparnis: 61,3 % weniger Token, 62,2 % geringere Kosten
Bei 1.000 Anfragen pro Tag entspricht dies einer Ersparnis von 280 $ pro Tag oder 102.200 $ pro Jahr.
Tag 4: Unternehmensintegrationen
Auswirkung: Wegfall des Overheads für benutzerdefinierte ETL
Zeitersparnis: Wochenlange Entwicklungsarbeit → Minutenlange Konfiguration
Wartung: Null (wird von Bright Data übernommen)
Tag 5: Bewertungen + Beobachtbarkeit
Auswirkung: Proaktive Qualitätskontrolle + Transparenz in der Produktion
Fehlerreduzierung: 10–15 % Verbesserung der Erfolgsraten (durch frühzeitige Fehlererkennung)
Kostenvermeidung: Erkennen von Regressionen vor der Produktion (Einsparung von Hunderten fehlgeschlagener Anfragen)
Probieren Sie es aus: Starten Sie noch heute
Schritt 1: Führen Sie Ihre erste Bewertung durch
# Installieren Sie mcpjam
npm install -g @mcpjam/cli
# Klonen Sie das Web-MCP-Repo
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse
# Konfigurieren Sie Ihre API-Schlüssel in mcp-evals/llms.json
# Konfigurieren Sie Ihr Bright Data-Token in den Serverkonfigurationen
# Führen Sie E-Commerce-Evalausführungen durch
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Schritt 2: Zugriff auf das Observability-Dashboard
- Registrieren Sie sich bei Bright Data
- Navigieren Sie im Control Panel zu „MCP-Nutzung“
- Stellen Sie einen Agenten bereit und beobachten Sie, wie die Nutzungsdaten in Echtzeit angezeigt werden
Schritt 3: Wiederholen
Verwenden Sie Evaluierungen, um Konfigurationen zu testen. Verwenden Sie das Dashboard, um die Produktion zu überwachen. Wiederholen Sie den Vorgang.
Ressourcen
MCP-Evaluierungen:
- mcpjam GitHub – Offizielle Evaluierungs-CLI
- Model Context Protocol – Offizielle MCP-Spezifikation
Observability Dashboard:
- Bright Data Control Panel – Zugriff auf Ihr Nutzungs-Dashboard
- API-Dokumentation – Vollständige API-Referenz
Der Web-MCP-Server:
- GitHub-Repository – Open-Source-Servercode
- NPM-Paket – Installation über npm
Rückblick auf die Startwoche:
- Tag 1: Werkzeuggruppen– Kontextverschmutzung beseitigen
- Tag 2: Benutzerdefinierte Tools– Präzise Tool-Auswahl
- Tag 3: Token-Optimierung– Maximierung der Effizienz
- Tag 4: Unternehmensintegrationen– Silos aufbrechen
- Tag 5: Bewertungen und Beobachtbarkeit – Messen Sie, was wichtig ist (Sie befinden sich hier)
Startwoche: Ein letztes Wort
Fünf Tage. Fünf wichtige Veröffentlichungen. Eine Mission: KI-Agenten produktionsreif machen.
Wir gingen von der Erkenntnis aus, dass Kontextverschmutzung der größte Engpass in agentenbasierten Workflows ist. Wir haben Ihnen Tool-Gruppen zur Verfügung gestellt, um Ihren Kontext einzugrenzen.
Dann haben wir erkannt, dass selbst Gruppen nicht präzise genug sind. Wir haben benutzerdefinierte Tools für chirurgische Präzision bereitgestellt.
Als Nächstes haben wir uns mit der Ausgabeseite befasst: mit token-überladenen Antworten. Wir haben das Entfernen von Markdown über Strip-Markdown und die intelligente Bereinigung von Nutzdaten mit Parsed Light integriert.
Danach haben wir Bright Data auf die Plattformen gebracht, die Unternehmen tatsächlich nutzen: Google ADK, IBM watsonx, Databricks und Snowflake.
Und heute haben wir den Kreis mit Bewertungen und Beobachtbarkeit geschlossen. Denn was man nicht messen kann, kann man auch nicht verbessern.
Dies ist der vollständige Stack für Produktions-KI-Agenten:
- Tool-Gruppen → Reduzierung der Kontextverschmutzung
- Benutzerdefinierte Tools → Maximierung der Präzision
- Token-Optimierung → Kosten minimieren
- Unternehmensintegrationen → Überall einsetzbar
- Bewertungen + Beobachtbarkeit → Qualität aufrechterhalten
Vielen Dank
An alle, die diese Woche dabei waren: Vielen Dank.
An die Entwickler, die die nächste Generation von KI-Agenten entwickeln: Wir können es kaum erwarten, zu sehen, was Sie entwickeln.
An die Unternehmen, die KI in großem Maßstab einsetzen: Wir sind hier, um dafür zu sorgen, dass sie zuverlässig funktioniert.
Und an die Open-Source-Community, die MCP möglich gemacht hat: Das ist erst der Anfang.
Lasst uns gemeinsam die Zukunft der KI gestalten.