Recursion statt Skalierung: Wenn kleine Modelle besser reasonen

Table of Contents

Kurzzusammenfassung

Das Video diskutiert zwei aktuelle Forschungspapiere — Hierarchical Reasoning Models (HRM) und Tiny Recursive Models (TRM) — die zeigen, dass Reasoning-Fähigkeiten von KI-Modellen durch Rekursion zur Inferenzzeit verbessert werden können, ohne das Modell selbst zu vergrössern. Ein 27-Millionen-Parameter-Modell erreichte dabei auf dem ARC-Prize-Benchmark Ergebnisse, die damals O3 von OpenAI übertrafen. Die Kernthese: Die Grenzen heutiger LLMs beim Reasoning liegen nicht primär in der Modellgrösse, sondern in der fehlenden internen Speicherstruktur und der Unfähigkeit, in einem kontinuierlichen latenten Raum zu iterieren.

Kritische Bewertung

Das Video liefert solide konzeptuelle Tiefe. Die Argumentation, warum klassische Transformer bei bestimmten Reasoning-Aufgaben an strukturelle Grenzen stossen, ist gut fundiert: Die Analogie zur Turing-Maschine und der Verweis auf Komplexitätstheorie (O(n log n) als untere Schranke für Vergleichssortierung) sind keine Hype-Rhetorik, sondern mathematisch belegte Einschränkungen.

Was jedoch kritisch fehlt: Das Video ist eine Forschungsunterhaltung, kein Peer-Review. Die Aussage, dass HRM O3 auf ARC-Prize übertrifft, wird nicht sauber kontextualisiert — zu welchem Zeitpunkt, auf welchem Split, unter welchen Bedingungen? ARC-Prize-Benchmarks sind bekannt dafür, dass kleine Modelländerungen grosse Score-Schwankungen erzeugen.

Die Deep-Equilibrium-Erklärung (DEQ) für das Training wird im selben Atemzug präsentiert und wieder infrage gestellt: «We actually don’t know why it’s really working.» Das ist ehrlich, aber für Praxis-Entscheide wenig hilfreich.

Vollständig absent ist jede Auseinandersetzung mit: Trainingskosten und Reproduzierbarkeit dieser Ergebnisse, Verhalten auf natürlichsprachlichen (nicht kombinatorischen) Aufgaben, und ob die Benchmarks (Sudoku, Mazes, ARC) überhaupt repräsentativ für reale Enterprise-Workloads sind. Für DACH-Operatoren, die Reasoning-Modelle in Dokumentenanalyse, Code-Generierung oder Prozessautomatisierung einsetzen, ist ein Sudoku-Benchmark von beschränkter Relevanz.

Fazit: Interessante Forschungsrichtung, aber noch weit vom produktionsreifen Einsatz entfernt.

Einordnung in aktuelle Trends

Das Video greift eine Debatte auf, die 2025 in der ML-Forschung deutlich an Fahrt gewonnen hat: Test-Time Compute als Alternative zu reiner Skalierung. OpenAIs O-Modelle, Anthropics Extended Thinking und Googles Gemini-Reasoning-Modi folgen alle der gleichen Logik — mehr Rechenzeit bei der Inferenz, nicht nur mehr Parameter.

Was HRM und TRM ergänzen, ist die Idee, diese Iteration nicht im Token-Raum (Chain-of-Thought), sondern im latenten Zustandsraum des Modells selbst durchzuführen. Das ist konzeptuell näher an klassischen RNNs als an modernen Transformer-Architekturen. Alex Graves‘ Arbeiten zu Neural Turing Machines (2014) und Adaptive Computation Time werden im Video zu Recht als Vorläufer genannt.

Relevant ist auch der Kontext: Das ARC-Prize-Benchmark-System von François Chollet ist explizit darauf ausgelegt, Generalisierung jenseits von Trainingsdaten zu messen — genau die Schwäche, die das Video adressiert. Dass ein 27M-Parameter-Modell ohne Vortraining hier kompetitive Ergebnisse zeigt, ist bemerkenswert, auch wenn die Übertragbarkeit auf andere Domänen offen bleibt. Die Debatte über «scaling laws vs. architectural efficiency» wird 2025/2026 durch Modelle wie Mistral Small oder Phi-4 von Microsoft begleitet, die ähnliche Effizienzargumente in der Praxis stützen.

Einordnung aus DACH-Operator-Sicht

Für IT-Professionals und Business Analysten im DACH-Raum hat dieses Video primär strategischen, nicht unmittelbar operativen Wert. Die konkrete Botschaft lautet: Die nächste Generation von Reasoning-Modellen wird nicht zwingend grösser sein — sie wird anders iterieren.

Das hat Implikationen für Tool-Entscheide: Wer heute in teure GPT-4o- oder Claude-Opus-Integrationen investiert, weil er «maximale Reasoning-Kapazität» benötigt, sollte die Entwicklung kleinerer, spezialisierterer Modelle mit Rekursion im Blick behalten. Für Unternehmen mit Datenschutzanforderungen (DSGVO, Bankgeheimnis CH) oder On-Premise-Anforderungen sind kleine, effiziente Modelle mit hoher Reasoning-Güte besonders interessant — sie sind leichter lokal zu betreiben.

Budget-Entscheide: Wer jetzt Infrastruktur für grosse Modelle aufsetzt, tut gut daran, Flexibilität einzuplanen. Modellarchitekturen ändern sich schneller als Enterprise-Beschaffungszyklen. Eine API-First-Strategie mit Modell-Abstraktion (z.B. via LiteLLM oder ähnliche Router) schützt besser vor Architekturwechseln als eine enge Vendor-Bindung.

Für DACH-Compliance-Teams: Kleinere Modelle, die lokal laufen, reduzieren das Risiko von Datenabflüssen — ein Argument, das in Audit-Gesprächen zunehmend Gewicht hat.

Praxis-Mehrwert

Drei konkrete nächste Schritte für DACH-Operatoren:

1. ARC-Prize-Benchmark verstehen: Schau dir die öffentliche ARC-Prize-Seite (arcprize.org) an. Das gibt dir ein besseres Gefühl dafür, was «Reasoning» in diesem Kontext bedeutet — und wo die Grenzen dieser Messung liegen. Nicht jeder Use Case ist ein ARC-Problem.

2. Phi-4 und Mistral Small testen: Microsoft Phi-4 (14B) und Mistral Small zeigen, dass kleine Modelle auf bestimmten Reasoning-Benchmarks mit grossen mithalten können. Wenn du Evals für interne Aufgaben betreibst, füge diese Modelle deiner Vergleichsmatrix hinzu — die Kostenunterschiede sind erheblich.

3. Architektur-Abhängigkeit reduzieren: Wenn du gerade API-Integrationen planst, evaluiere einen Modell-Router (LiteLLM, PortKey). Das erlaubt dir, in sechs Monaten auf ein rekursives Reasoning-Modell umzustellen, ohne die gesamte Integration neu zu schreiben.

Quellen:

• Video: «Recursion statt Skalierung», Decoded Podcast mit François Chaard (YC Visiting Partner), YouTube • ARC-Prize-Benchmark: arcprize.org • HRM/TRM-Diskussion: siehe Verweise im Artikel

Video ansehen auf YouTube