Methodik & Datenquellen

Wir erfinden keine eigenen Bestenlisten. Unsere Rankings bündeln drei etablierte, öffentlich nachprüfbare Quellen — je eine pro Achse. Hier steht offen, woher jede Zahl stammt, wie sie gemessen wird und was sie aussagt. Jede Quelle ist direkt verlinkt, damit du selbst nachprüfen kannst.

Die drei Quellen

Reasoning

LMSYS Chatbot Arena (MT-bench)

Was gemessen wird: Menschen vergleichen blind zwei anonyme Modell-Antworten auf dieselbe Frage und wählen die bessere. Aus zehntausenden solcher Vergleiche entsteht ein relativer Score.
Warum diese Quelle: Der grösste offene Datensatz menschlicher Präferenzen. Gemessen wird nicht eine künstliche Einzelaufgabe, sondern wie nützlich ein Modell im echten Dialog wahrgenommen wird.
Was der Wert bedeutet: MT-bench-Score auf einer Skala von 1 bis 10 — höher ist besser. Der Wert ist relativ zum Teilnehmerfeld, nicht absolut.

Zur Originalquelle ↗ Letzte Validierung: 2026-05-31

Coding

Aider Polyglot Leaderboard

Was gemessen wird: Modelle lösen reale Programmieraufgaben in mehreren Sprachen. Gemessen wird, wie viel Prozent vollständig und korrekt gelöst werden — inklusive sauberem, anwendbarem Diff-Format.
Warum diese Quelle: Kein Multiple-Choice, sondern lauffähiger Code, der Tests bestehen muss. Das kommt dem echten Engineering-Alltag deutlich näher als reine Wissensfragen.
Was der Wert bedeutet: Pass-Rate von 0 bis 100 Prozent — höher ist besser. Sie sagt, welcher Anteil der Aufgaben fehlerfrei gelöst wurde.

Zur Originalquelle ↗ Letzte Validierung: 2026-05-31

Agenten & Tool-Use

Berkeley Function-Calling Leaderboard (BFCL)

Was gemessen wird: Geprüft wird, ob ein Modell aus einer Aufgabe das richtige Werkzeug mit korrekten Parametern aufruft — einfache, parallele und mehrstufige Funktionsaufrufe.
Warum diese Quelle: Zuverlässiger Tool-Use ist die Grundlage jedes Agenten. Dieser Wert misst genau die Fähigkeit, die hinter automatisierten Workflows steht.
Was der Wert bedeutet: Overall-Accuracy von 0 bis 100 Prozent — höher ist besser. Sie bündelt mehrere Test-Kategorien zu einem Gesamtwert.

Zur Originalquelle ↗ Letzte Validierung: 2026-05-31

Wie wir aktualisieren

Ein automatisierter Prozess holt die Daten jeden Sonntag aus allen drei Quellen, schreibt sie in unsere Datenbank und stellt die jeweils Top-5 pro Achse auf der Startseite dar. Das Datum der letzten Validierung steht bei jeder Quelle oben — so siehst du auf einen Blick, wie aktuell die Zahlen sind.

Transparenz-Hinweis: Die Chatbot Arena (Reasoning) veröffentlicht seit August 2025 keine neuen öffentlichen Score-Tabellen mehr. Wir zeigen den jüngsten verfügbaren Stand und kennzeichnen das Quelldatum. Sobald eine aktuellere offene Quelle verfügbar ist, stellen wir um.

Was diese Zahlen nicht sind

Benchmarks sind Annäherungen, keine Wahrheit. Ein hoher Score heisst nicht, dass ein Modell für deinen konkreten Anwendungsfall das beste ist — Kosten, Geschwindigkeit, Datenschutz und Verfügbarkeit zählen genauso. Wir nutzen diese Rankings als Orientierung, nicht als Urteil. Deshalb verlinken wir immer die Originalquelle und sagen offen, wo Daten veralten.

← Zurück zur Rankings-Übersicht