Methodik & Datenquellen
Wir erfinden keine eigenen Bestenlisten. Unsere Rankings bündeln drei etablierte, öffentlich nachprüfbare Quellen — je eine pro Achse. Hier steht offen, woher jede Zahl stammt, wie sie gemessen wird und was sie aussagt. Jede Quelle ist direkt verlinkt, damit du selbst nachprüfen kannst.
Die drei Quellen
LMSYS Chatbot Arena (MT-bench)
- Was gemessen wird
- Menschen vergleichen blind zwei anonyme Modell-Antworten auf dieselbe Frage und wählen die bessere. Aus zehntausenden solcher Vergleiche entsteht ein relativer Score.
- Warum diese Quelle
- Der grösste offene Datensatz menschlicher Präferenzen. Gemessen wird nicht eine künstliche Einzelaufgabe, sondern wie nützlich ein Modell im echten Dialog wahrgenommen wird.
- Was der Wert bedeutet
- MT-bench-Score auf einer Skala von 1 bis 10 — höher ist besser. Der Wert ist relativ zum Teilnehmerfeld, nicht absolut.
Aider Polyglot Leaderboard
- Was gemessen wird
- Modelle lösen reale Programmieraufgaben in mehreren Sprachen. Gemessen wird, wie viel Prozent vollständig und korrekt gelöst werden — inklusive sauberem, anwendbarem Diff-Format.
- Warum diese Quelle
- Kein Multiple-Choice, sondern lauffähiger Code, der Tests bestehen muss. Das kommt dem echten Engineering-Alltag deutlich näher als reine Wissensfragen.
- Was der Wert bedeutet
- Pass-Rate von 0 bis 100 Prozent — höher ist besser. Sie sagt, welcher Anteil der Aufgaben fehlerfrei gelöst wurde.
Berkeley Function-Calling Leaderboard (BFCL)
- Was gemessen wird
- Geprüft wird, ob ein Modell aus einer Aufgabe das richtige Werkzeug mit korrekten Parametern aufruft — einfache, parallele und mehrstufige Funktionsaufrufe.
- Warum diese Quelle
- Zuverlässiger Tool-Use ist die Grundlage jedes Agenten. Dieser Wert misst genau die Fähigkeit, die hinter automatisierten Workflows steht.
- Was der Wert bedeutet
- Overall-Accuracy von 0 bis 100 Prozent — höher ist besser. Sie bündelt mehrere Test-Kategorien zu einem Gesamtwert.
Wie wir aktualisieren
Ein automatisierter Prozess holt die Daten jeden Sonntag aus allen drei Quellen, schreibt sie in unsere Datenbank und stellt die jeweils Top-5 pro Achse auf der Startseite dar. Das Datum der letzten Validierung steht bei jeder Quelle oben — so siehst du auf einen Blick, wie aktuell die Zahlen sind.
Was diese Zahlen nicht sind
Benchmarks sind Annäherungen, keine Wahrheit. Ein hoher Score heisst nicht, dass ein Modell für deinen konkreten Anwendungsfall das beste ist — Kosten, Geschwindigkeit, Datenschutz und Verfügbarkeit zählen genauso. Wir nutzen diese Rankings als Orientierung, nicht als Urteil. Deshalb verlinken wir immer die Originalquelle und sagen offen, wo Daten veralten.