«Sind die aufkommenden Fähigkeiten großer Sprachmodelle eine Fata Morgana?»
Recent work claims that large language models display emergent abilities, abilities not present in smaller-scale models that are present in larger-scale models. What makes emergent abilities intriguing is two-fold: their sharpness, transitioning seemingly instantaneously from not present to present, and their unpredictability, appearing at seemingly unforeseeable model scales. Here, we present an alternative explanation for emergent abilities: that for a particular task and model family, when analyzing fixed model outputs, one can choose a metric which leads to the inference of an emergent ability or another metric which does not. Thus, our alternative suggests that existing claims of emergent abilities are creations of the researcher’s analyses, not fundamental changes in model behavior on specific tasks with scale. We present our explanation in a simple mathematical model, then test it in three complementary ways: we (1) make, test and confirm three predictions on the effect of metric choice using the InstructGPT/GPT-3 family on tasks with claimed emergent abilities, (2) make, test and confirm two predictions about metric choices in a meta-analysis of emergent abilities on BIG-Bench; and (3) show how similar metric decisions suggest apparent emergent abilities on vision tasks in diverse deep network architectures (convolutional, autoencoder, transformers). In all three analyses, we find strong supporting evidence that emergent abilities may not be a fundamental property of scaling AI models.
In neueren Arbeiten wird behauptet, dass große Sprachmodelle emergente Fähigkeiten aufweisen, d. h. Fähigkeiten, die in kleineren Modellen nicht vorhanden sind, aber in größeren Modellen vorhanden sind. Was emergente Fähigkeiten faszinierend macht, ist zweierlei: ihre Schärfe, die scheinbar augenblicklich von nicht vorhanden zu vorhanden übergeht, und ihre Unvorhersehbarkeit, die bei scheinbar unvorhersehbaren Modellskalen auftritt. Hier stellen wir eine alternative Erklärung für emergente Fähigkeiten vor: dass man für eine bestimmte Aufgabe und Modellfamilie bei der Analyse fester Modellausgaben eine Metrik wählen kann, die zur Schlussfolgerung einer emergenten Fähigkeit führt, oder eine andere Metrik, die dies nicht tut. Unsere Alternative legt also nahe, dass die bestehenden Behauptungen über emergente Fähigkeiten eine Schöpfung der Analysen des Forschers sind und keine grundlegenden Veränderungen im Modellverhalten bei bestimmten Aufgaben mit Skala. Wir stellen unsere Erklärung in einem einfachen mathematischen Modell vor und testen sie dann auf drei komplementäre Arten: Wir (1) machen, testen und bestätigen drei Vorhersagen über die Wirkung der Metrikwahl unter Verwendung der InstructGPT/GPT-3-Familie bei Aufgaben mit behaupteten emergenten Fähigkeiten, (2) machen, testen und bestätigen zwei Vorhersagen über Metrikwahlen in einer Meta-Analyse von emergenten Fähigkeiten auf BIG-Bench; und (3) zeigen, wie ähnliche Metrikentscheidungen scheinbar emergente Fähigkeiten bei Sehaufgaben in verschiedenen Deep-Network-Architekturen (Convolutional, Autoencoder, Transformers) nahelegen. In allen drei Analysen finden wir starke Belege dafür, dass emergente Fähigkeiten keine grundlegende Eigenschaft von skalierenden KI-Modellen sind.