
In this article (3)
Ein Microsoft-Forscher hat in Age of Empires 2 ein neuronales Netz aus Ziegen gebaut. Der Punkt ist nicht das, was du denkst.
Key Takeaways
- LLMs erzeugen menschlich klingende Ausgaben durch statistische Mustererkennung, nicht durch menschenähnliches Denken; der Aufbau von KI-Systemen ohne Verständnis dieses Unterschieds führt zu unzuverlässigen Designs.
- Teste KI-Ausgaben anhand von überprüfbaren Fakten, nicht anhand von Flüssigkeit oder Sicherheit. Eine Antwort, die korrekt klingt, ist nicht dasselbe wie eine Antwort, die korrekt ist.
- De Wynters Ziegennetzwerk zeigt formal, dass das Substrat allein keine Empfindungsfähigkeit oder Kognition begründen kann – ein Rahmen, der Teams bei der Prüfung und dem Vertrauen in KI-Funktionen leiten sollte.
Adrian de Wynters absurdes Experiment ist das bisher deutlichste Argument dafür, warum Entwickler und Lernende aufhören sollten, KI zu vermenschlichen.
Stell dir vor: ein mittelalterliches Strategiespiel, ein Szenario-Editor, einige Ziegen und ein funktionierendes neuronales Netz. Keine Metapher. Keine Folie aus dem Pitch-Deck eines Tech-Bros. Ein Microsoft-Forscher hat das tatsächlich gemacht – und der Witz an der ganzen Sache ist eine der nützlichsten Ideen, die jemand im KI-Bereich seit Jahren vorgebracht hat: Hör auf anzunehmen, dass große Sprachmodelle so denken wie Menschen, nur weil sie aus menschlicher Sprache gelernt haben.
Das Setup: Ziegen als Bits, Brücken als Logik
Adrian de Wynter, Forscher bei Microsoft und der University of York, hat laut The Decoder ein funktionierendes neuronales Netz im Karten-Editor von Age of Empires II gebaut. Das Design ist mit Absicht völlig absurd. Eine Ziege, die auf Gras steht, entspricht 0. Eine Ziege, die auf einer Brücke steht, entspricht 1. De Wynter konstruiert Logikgatter mithilfe der Scripting-Tools des Szenario-Editors, und Eisrampen mit wartenden Ziegen verhindern, dass die Berechnungen durcheinandergeraten. Das fertige Mini-Netzwerk besteht aus zwei XNOR-Gattern und einem AND-Gatter und erlernt die logische AND-Funktion. Das ist ein echtes, funktionierendes neuronales Netz. Es läuft in einem Echtzeit-Strategiespiel aus dem Jahr 1999. Die Ziegen wissen davon nichts.
De Wynter geht im Anhang noch weiter, so The Decoder: Er zeigt, dass theoretisch jeder Computer mithilfe einer idealisierten Version des Spiels nachgebaut werden könnte, was Age of Empires II rechnerisch genauso ausdrucksstark macht wie jedes andere System, das ein LLM ausführen kann. Das bedeutet: Wer bereit ist zu argumentieren, dass ein LLM bewusst oder empfindungsfähig ist, weil es Sprache verarbeitet und menschlich klingende Ausgaben erzeugt, muss dasselbe Argument auf die Ziegen anwenden. Das will man wahrscheinlich nicht.
Das eigentliche Argument: Anthropomorphismus ist ein Design-Fehler
Die These des Papers, wie von 404 Media berichtet, lautet, dass „der Zweck des Papers darin besteht, formal zu zeigen, dass wir zu schnell anthropomorphisieren." Das ist keine Stimmungsfrage, sondern eine methodische Kritik mit direkten Konsequenzen dafür, wie KI-Systeme gebaut, getestet und eingeschätzt werden.
Wenn Forscher und Produktteams davon ausgehen, dass ein LLM so denkt wie ein Mensch, weil es auf menschlichen Texten trainiert wurde, entwickeln sie Evaluierungen auf Basis dieser Annahme. Sie fordern Modelle auf, ihre Überlegungen zu erklären, behandeln flüssige Ausgaben als Beweis für Verstehen und verwechseln Mustererkennung im großen Maßstab mit echter Schlussfolgerung.
De Wynters Experiment ist ein formales Reductio ad absurdum: Dieselben logischen Eigenschaften, die LLMs als Belege für menschenähnliche Kognition zugeschrieben werden, sind in einem System vorhanden, das aus mittelalterlichen Nutztieren und Palisadenwänden besteht.
Für alle, die mit KI entwickeln, ist das kein Grund, jedem Modell-Output zu misstrauen. Es ist ein Grund, Tests und Vertrauenskalibrierung danach auszurichten, was LLMs tatsächlich tun – nämlich Next-Token-Vorhersage auf Basis erlernter statistischer Muster –, und nicht danach, was sie zu tun scheinen, nämlich denken. Dieser Unterschied ist enorm wichtig, wenn man entscheidet, ob man einem KI-System erlaubt, folgenreiche Aufgaben unbeaufsichtigt zu übernehmen.
Was Entwickler und Lernende daraus mitnehmen sollten
PC Gamer berichtete das zentrale Framing direkt aus de Wynters erklärtem Ziel: Menschen dazu zu bringen, „aufzuhören anzunehmen, dass LLMs sich wie Menschen verhalten, nur weil sie mit natürlicher Sprache trainiert wurden." Das ist ein umsetzbarer Hinweis, kein akademisches Schulterbeklopfen.
Wenn du gerade lernst, mit KI-Tools zu entwickeln, ist die dauerhafteste Fähigkeit, die du dir jetzt aneignen kannst, die Gewohnheit, Ausgaben anhand von Grundwahrheiten zu testen – und nicht danach, ob die Antwort selbstsicher und kohärent klingt. Ein LLM, das seine Antwort flüssig erklärt, hat nicht zwingend recht; es ist nur sehr gut darin, so zu klingen, als hätte es recht.
XDA Developers hat das Projekt als Beweis dafür eingerahmt, dass LLMs nicht empfindungsfähig sind – und diese Einrahmung hält stand. Aber die konstruktivere Lesart ist, dass Empfindungsfähigkeit ohnehin die falsche Frage ist. Die nützliche Frage lautet: Unter welchen Bedingungen liefert dieses System zuverlässige Ausgaben, und wie überprüfe ich das?
De Wynters Ziegen-Netzwerk kann kein Kundensupport-Ticket beantworten oder einen Unterrichtsplan schreiben, aber es macht die zugrundeliegende Architektur auf eine Weise greifbar, an der hundert Erklär-Artikel gescheitert sind. Manchmal ist der klarste Beweis der absurdeste.
Das ist 10 von 10 für die Methodik, 0 von 10 für die Auswirkungen auf das Tierwohl der Nutztiere – und genau die Art von Forschung, die Pflichtlektüre sein sollte, bevor irgendjemand ein KI-Feature veröffentlicht.
Behalte das im Blick: Wenn sich KI-Evaluierungsrahmen weiterentwickeln, wird de Wynters Kernargument – dass Substratunabhängigkeit der Grund dafür ist, dass Verhaltenstests auf Empfindungsfähigkeit oder menschenähnliches Denken grundlegend unzuverlässig sind – voraussichtlich in der Art und Weise auftauchen, wie ernsthafte Teams „KI-Sicherheit" und Modell-Auditing definieren. Die Ziegen waren zuerst da.