Die Illusion des Denkens: Die Stärken und Grenzen von Reasoning Models aus der Perspektive der Komplexität von Problemen verstehen

Recent generations of language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scaling properties, and limitations remain insufficiently understood. Current evaluations primarily focus on established math and coding benchmarks, emphasizing final answer accuracy. However, this evaluation paradigm often suffers from contamination and does not provide insights into the reasoning traces. In this work, we systematically investigate these gaps with the help of controllable puzzle environments that allow precise manipulation of complexity while maintaining consistent logical structures. This setup enables the analysis of not only final answers but also the internal reasoning traces, offering insights into how LRMs think. Through extensive experiments, we show that LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counterintuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having remaining token budget. By comparing LRMs with their standard LLM counterparts under same inference compute, we identify three performance regimes: (1) low-complexity tasks where standard models outperform LRMs, (2) medium-complexity tasks where LRMs demonstrates advantage, and (3) high-complexity tasks where both models face complete collapse. We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across scales. We also investigate the reasoning traces in more depth, studying the patterns of explored solutions and analyzing the models' computational behavior, shedding light on their strengths, limitations, and raising questions about their reasoning capabilities.
Die jüngsten Generationen von Sprachmodellen haben Large Reasoning Models (LRMs) eingeführt, die detaillierte Denkprozesse generieren, bevor sie Antworten liefern. Diese Modelle zeigen zwar eine verbesserte Leistung bei Benchmarks zum logischen Denken, doch ihre grundlegenden Fähigkeiten, Skalierungseigenschaften und Grenzen sind noch nicht ausreichend verstanden. Aktuelle Bewertungen konzentrieren sich in erster Linie auf etablierte Mathematik- und Codierungs-Benchmarks, wobei der Schwerpunkt auf der Genauigkeit der endgültigen Antwort liegt. Dieses Bewertungsparadigma leidet jedoch häufig unter Verfälschungen und liefert keine Einblicke in die Denkprozesse. In dieser Arbeit untersuchen wir diese Lücken systematisch mit Hilfe kontrollierbarer Puzzle-Umgebungen, die eine präzise Manipulation der Komplexität unter Beibehaltung konsistenter logischer Strukturen ermöglichen. Dieser Aufbau ermöglicht die Analyse nicht nur der endgültigen Antworten, sondern auch der internen Denkprozesse und bietet Einblicke in die Denkweise von LRM. Durch umfangreiche Experimente zeigen wir, dass LRM ab einer bestimmten Komplexität einen vollständigen Genauigkeitsverlust erleiden. Darüber hinaus weisen sie eine kontraintuitive Skalierungsgrenze auf: Ihr Denkaufwand steigt mit der Komplexität des Problems bis zu einem bestimmten Punkt an und nimmt dann trotz verbleibendem Token-Budget ab. Durch den Vergleich von LRMs mit ihren Standard-LLM-Pendants unter gleichen Inferenzberechnungen identifizieren wir drei Leistungsbereiche: (1) Aufgaben mit geringer Komplexität, bei denen Standardmodelle LRM übertreffen, (2) Aufgaben mit mittlerer Komplexität, bei denen LRM Vorteile aufweisen, und (3) Aufgaben mit hoher Komplexität, bei denen beide Modelle vollständig versagen. Wir haben festgestellt, dass LRM bei exakten Berechnungen Einschränkungen aufweisen: Sie verwenden keine expliziten Algorithmen und argumentieren über verschiedene Skalen hinweg inkonsistent. Wir untersuchen auch die Argumentationswege genauer, indem wir die Muster der untersuchten Lösungen studieren und das Berechnungsverhalten der Modelle analysieren, um ihre Stärken und Grenzen aufzuzeigen und Fragen zu ihren Argumentationsfähigkeiten aufzuwerfen.

Das Paper gibt's hier. (Sicherungskopie)

Textdatenbanken erscheinen als Problemlöser, wenn sie fertige Lösungen – auch umformuliert – vorlesen können. Geht es darüber hinaus, funktioniert das ganze nicht mehr.

Übrigens haben wir mehr Erfahrungen in der Informatik mit Reasoning als mit Language Models. Die Versuche der ersten KI-Welle verwendeten u.a. Prolog, um Schlüsse zu ziehen. Die Limitierungen von formalen Schlüssen sind also eigentlich wohlbekannt.

Auffällig ist, dass der KI-Hype nur von Leuten unterstützt wird, die im mechanizistischen Denken verhaftet sind, die also den Linguistic turn nicht mitgemacht haben.