Bewertungsmethodik
Der Serge-Score misst eine Sache: wie einfach es für einen KI-Agenten ist, ein Produkt auf Ihrer Site zu finden und den nächsten sinnvollen Schritt abzuschließen. Eine einzige Zahl von 0 bis 100. Der Scanner ist deterministisch; Replay ist die hochauflösende Produktoberfläche, wenn Sie einen bestimmten Fehler untersuchen müssen.
Diese Seite erklärt, was der Scan tatsächlich macht, wie der Score berechnet wird und wie sich die Methodik im Laufe der Zeit weiterentwickelt. Wir veröffentlichen dies offen, weil Vertrauen wichtiger ist, als so zu tun, als wäre das Modell statisch.
Der Scanner ist heute live, und das Bewertungsmodell wird offen versioniert. Wir halten die öffentliche Methodik offen, weil das Produkt noch jung ist und sich die Prüfbibliothek weiter verfeinert, während wir gegen mehr reale Replay-Szenarien validieren.
Die Kern-Scanner-Engine läuft bereits auf jeder Domain: Crawl, statische Analyse, deterministische Prüfungen und eine kalibrierte 0–100-Ausgabe. Was sich weiter entwickelt, ist die genaue Gewichtung, Benchmark-Verteilung und wie aggressiv wir strukturelle Ausfälle in Score-Bewegungen übersetzen.
Was folgt, ist die aktuelle Version. Wir erwarten Überarbeitungen, sobald sich Replay-Belege ansammeln, und werden diese Änderungen hier weiter dokumentieren.
Was wir messen
Eine Frage: Wie einfach ist es für einen Nutzer hinter einem KI-Agenten, ein Produkt auf dieser Site zu finden und in einen Warenkorb zu legen?
Das Szenario: Ein Käufer bittet Claude, ChatGPT oder Operator, etwas auf Ihrer Site zu kaufen. Der Agent startet seinen Browser (über einen Model-Context-Protocol-Server, ein eingebautes Computer-Use-Tool oder eine Headless-Automatisierungsschicht), navigiert zu Ihrer Site, versucht das richtige Produkt zu finden, versucht es in den Warenkorb zu legen und gelingt entweder oder gibt auf. Wenn er aufgibt, geht der Nutzer zu einem Konkurrenten — und Sie sehen den verlorenen Verkauf nie in GA4.
Serge misst deterministisch und ohne zur Scan-Zeit einen Live-Agenten auszuführen, ob die strukturellen Voraussetzungen für den Erfolg dieser Reise vorhanden sind. Wir betrachten Dinge, die ein Agent benötigen würde: maschinenlesbare Produktdaten, navigierbares DOM, zugängliche interaktive Elemente, ungehinderter Crawler-Zugriff, konsistente URL-Struktur, klare Bestand- und Preissignale und eine Handvoll weiterer Signale, die mit dem Erfolg der Agentennavigation korrelieren.
Wie wir messen
Deterministisch. Der öffentliche Scanner ruft zur Scan-Zeit kein LLM auf. Das Ausführen eines echten Agenten gegen jede Domain, die die Site erreicht, würde den Scanner unbezahlbar und langsam machen. Stattdessen crawlt Serge eine repräsentative Stichprobe der Site und inspiziert strukturelle Eigenschaften, die vorhersagen, ob ein Agent die Aufgabe abschließen könnte.
Live-Agentenläufe finden im bezahlten Produkt statt. Investigate Mode (unsere Enterprise-Lieferung) führt einen echten KI-Agenten — Claude Desktop über MCP, später Operator und GPT Agent — gegen eine bestimmte URL aus, um die tatsächliche Sitzung, Argumentation, DOM-Interaktionen und Fehlerpunkte zu erfassen. Das ist eine separate Oberfläche, hinter dem bezahlten Tier. Der öffentliche Scanner ist der deterministische Cousin, der Ihnen eine schnelle, günstige, teilbare Antwort auf dieselbe Frage gibt.
Die spezifischen Prüfungen und Gewichtungen entwickeln sich weiter. Die aktuelle Forschungsrichtung umfasst:
- Kann der Agent die Site überhaupt erreichen? Bot-Schutz-Posture, robots.txt, WAF-Verhalten.
- Kann der Agent Produkte finden? Sitemap, Navigationssemantik, Auffindbarkeit von Produkt-URLs, interne Linkstruktur.
- Kann der Agent Produktdaten parsen? Schema.org Product / Offer / Availability, strukturierte Preise, Variantenmetadaten.
- Kann der Agent mit der Seite interagieren? Echte Buttons vs.
<div onClick>, zugängliche Namen, ARIA-Rollen, Tastatursemantik. - Kann der Agent in den Warenkorb legen? Warenkorbstatus-Offenlegung, Variantenauswahlmechanik, Bestandssichtbarkeit.
Wir werden hier weiter Überarbeitungen veröffentlichen, sobald sich die Prüfliste, Gewichtungen und Benchmark-Kalibrierung verfeinern.
Wie der Score berechnet wird
Prüfzustände
Jede einzelne Prüfung gibt einen von vier Zuständen zurück:
| Zustand | Beschreibung |
|---|---|
| Pass | Volle Punkte. Der Agent würde dies erfolgreich durchqueren können. |
| Partial | Halbe Punkte. Der Agent kommt durch, aber etwas ist unvollständig oder fragil. |
| Fail | Null Punkte. Der Agent würde hier wahrscheinlich scheitern. |
| Blocked | Aus der Bewertung ausgeschlossen. Der Bot-Schutz hat die Bewertung der Prüfung verhindert. |
Kalibrierungskurve
Rohe Prüfungs-Scores werden durch eine stückweise Kalibrierungskurve geleitet, die den theoretischen Bereich von 0–100 auf eine praktische Verteilung abbildet. Die Kurve wird gegen Benchmark-Daten aus gescannten Domains kalibriert und ist so konzipiert, dass:
- Frühe Erfolge sind belohnend. Die Behebung eines einzelnen blockierenden Problems auf einer Site mit Score 20 erzeugt eine sichtbare Score-Steigerung — sodass Frühanwender schnell Fortschritte sehen.
- Der mittlere Bereich hat klare Trennung. Ein Score von 50 unterscheidet sich bedeutungsvoll von einem Score von 65.
- Die Spitze ist schwer zu erreichen. Der Wechsel von 90 auf 95 erfordert wesentlich mehr Engineering-Investition als der Wechsel von 40 auf 55.
Dies folgt dem gleichen Prinzip, das Google Lighthouse verwendet, das Scores gegen reale Verteilungen kalibriert, sodass sie praktische Benchmarks widerspiegeln und nicht theoretische Maxima.
Score-Bänder
| Score | Label | Bedeutung |
|---|---|---|
| 0–24 | Agents cannot complete a purchase | Agents may not be able to find or buy your products |
| 25–44 | Agents struggle to buy | Agents can reach the site but often fail before adding to cart |
| 45–64 | Agents will hit gaps | Agents can browse but may fail at variant selection or cart |
| 65–84 | Mostly works for agents | Agents can find and add products with minor friction |
| 85–100 | Agents can buy here | Agents can reliably find products and add them to the cart |
Die Bandbezeichnungen und Bedeutungen werden im Rahmen der Methodik-Überarbeitung aktualisiert, um Ergebnisse in Begriffen der Produktauffindbarkeit zu beschreiben (z. B. „Agenten können die meisten Produkte finden, können aber bei der Variantenauswahl scheitern“) statt der früheren generischen Readiness-Begriffe.
Wie wir mit Edge Cases umgehen
Bot-Schutz und Browser-Fallback
Wenn der Serge-Crawler durch eine WAF oder Challenge-Seite blockiert wird, markieren wir betroffene Prüfungen als „blockiert“ statt als „fail.“ Blockierte Prüfungen werden vom Score-Nenner ausgeschlossen — wir bewerten nur, was wir tatsächlich sehen können.
Wenn SergeBots Standard-User-Agent stillschweigend blockiert wird, holen wir Schlüsselressourcen mit einem Standard-Browser-User-Agent erneut ab. Dies ermöglicht es uns, echte Ergebnisse für Sites hinter aggressivem CDN-Bot-Schutz zu liefern. Der Scan-Bericht weist offen aus, wann dieser Fallback verwendet wurde.
Bot-Schutz-Blockierung ist selbst ein Befund. Wenn unser deterministischer Crawler Ihre Site nicht erreichen kann, könnten echte KI-Agenten, die Headless-Browser verwenden, ähnlichen Einschränkungen unterliegen. Dies wird als Befund mit konkreten Empfehlungen gemeldet, um legitimen Agentenzugriff zu erlauben, ohne missbräuchlichen Scrapern Tür und Tor zu öffnen.
Sites ohne E-Commerce
Serges Bewertung ist für E-Commerce-Sites konzipiert — Sites, die existieren, damit ein Kunde ein Produkt finden und kaufen kann. Wenn der Scanner keine Produktseiten, keinen Warenkorb-Mechanismus und keine Preise findet, wird der Score zu einem entarteten Fall, und wir sagen das ausdrücklich, statt eine bedeutungslose Zahl zu erfinden. Nicht-Commerce-Sites sind in der aktuellen Kohorte nicht unsere Ziel-ICP.
Score-Stabilität während der Überarbeitung
Da die Methodik aktiv überarbeitet wird, können sich Scores, die während der Übergangsphase generiert werden, verschieben, da Prüfungen hinzugefügt, entfernt oder neu gewichtet werden. Sobald die neue Methodik festgelegt ist, verpflichten wir uns, sie stabil zu halten, sodass ein Score von 65 in Monat A dasselbe bedeutet wie ein Score von 65 in Monat B. Fortschritt muss an einem stabilen Maßstab gemessen werden.
Vorarbeit und Einflüsse
Die Serge-Bewertungsmethodik baut auf etablierten Praktiken aus mehreren Bereichen auf:
Design der Bewertungskurve
- Google Lighthouse — Verwendet log-normale Kurven, die gegen reale Web-Performance-Daten (HTTP Archive) kalibriert sind. Serge folgt demselben Prinzip: Scores werden gegen die reale Verteilung der gescannten Domains kalibriert, nicht gegen theoretische Maxima.
- SSL Labs — Wechselte von 0–100 numerischen Scores zu A–F Buchstabennoten zur Kommunikationsklarheit. Pionier auch bei harten Obergrenzen: ein einzelner kritischer Fehler überschreibt den Gesamtscore.
- SecurityScorecard — Logarithmische Skala, die zeigt, dass externes, nicht invasives Scannen Scores erzeugen kann, die mit realen Ergebnissen korrelieren.
Agenten-Protokolle und Standards
Wo relevant, verweist die Bewertung auf aufkommende Standards und Protokolle, die Agenten helfen, mit Web-Plattformen zu interagieren. Dies sind Eingabesignale für die Bewertung, keine von uns erfundenen Frameworks:
- WCAG 2.2 — Barrierefreiheitsstandards für assistive Technologien. Starke Überschneidung mit dem, was Agenten brauchen, um mit einer Seite zu interagieren.
- Schema.org Product — Strukturierte Produktdaten, die Agenten parsen, um Bestand, Preis, Verfügbarkeit und Varianten zu verstehen.
- Robots Exclusion Protocol (RFC 9309) — Wie Sites Crawler-Berechtigungen erklären.
- Model Context Protocol — Anthropics offener Standard für Agent-zu-Tool-Integration. Echte KI-Agenten verwenden heute Browser-MCP-Server (Playwright MCP, Browser MCP, PageBolt), um Browser zu steuern.
Warum der Scanner kostenlos ist
Der Serge-Scanner folgt einem Modell, das bewährt wurde von:
- HubSpot Website Grader (2007) — Kostenloses Website-Bewertungstool, das 4 Millionen Websites bewertete und HubSpots primärer Lead-Generierungsmechanismus wurde, der über 40.000 organische Backlinks generierte.
- SecurityScorecard (2014) — Kostenloses Sicherheitsscore-Widget, verwendet von 880.000+ Unternehmen und skaliert auf $140M ARR als kategoriedefinierender Lead-Generator.
Beide haben gezeigt, dass ein kostenloses, teilbares Bewertungstool eine Kategorie definieren und durch Transparenz und Konsistenz Autorität aufbauen kann.
Einschränkungen
Wir glauben an Transparenz darüber, was der Score Ihnen sagen kann und was nicht.
Was der Score misst: Ob die strukturellen Voraussetzungen vorhanden sind, damit ein KI-Agent ein Produkt findet und in einen Warenkorb legt, basierend auf extern beobachtbaren Signalen.
Was der Score nicht misst:
- Das tatsächliche Volumen agentengetriebener Sitzungen, die Sie erhalten (das ist Aufgabe des passiven Tracking-Snippets)
- Ob ein bestimmter Agent an einem bestimmten Tag eine bestimmte Aufgabe tatsächlich abgeschlossen hat (das ist Aufgabe des Investigate Mode)
- Ob Ihre Site in ChatGPTs Antworten oder Google AI Overviews erscheint (das ist die GEO-Schicht, abgedeckt von anderen Tools)
- Checkout-Abschluss über den Add-to-Cart-Schritt hinaus (zukünftige Erweiterung)
- Die Zuverlässigkeit oder Latenz Ihrer Backend-API (wir können diese nicht extern messen)
- Die Qualität Ihres Merchandisings oder Ihrer Produktbeschreibungen aus Marketing-Sicht
Der Score ist keine Garantie. Ein hoher Score bedeutet, dass die strukturellen Voraussetzungen für Agentenerfolg vorhanden sind. Er garantiert nicht, dass jeder Agent bei jeder Aufgabe erfolgreich sein wird. Für spezifische, beobachtbare Daten zur Aufgabenerfüllung verwenden Sie Investigate Mode (echte Agenten gegen Ihre Site ausführen) oder das passive Tracking-Snippet (echte Agentensitzungen erfassen, während sie passieren).
Der Score ist eine Momentaufnahme-Messung. Das Agenten-Ökosystem entwickelt sich rasant. Wir verpflichten uns, das Framework aktuell zu halten und, sobald die Überarbeitung abgeschlossen ist, die Score-Stabilität aufrechtzuerhalten, sodass Fortschritt an einem stabilen Maßstab gemessen werden kann.
Feedback
Wir begrüßen Feedback zur Methodik. Wenn Sie glauben, dass eine Prüfung ungenaue Ergebnisse produziert, wenn uns ein wichtiges Signal fehlt oder wenn Sie Forschung haben, die das Framework informieren sollte, kontaktieren Sie uns.
Das Ziel ist, dies richtig hinzubekommen — für die bewerteten E-Commerce-Teams und für die Agenten, die auf ihren Sites einkaufen wollen.