Warum beweist ein ziegenbetriebenes neuronales Netz irgendetwas über LLMs?

Das Experiment zeigt, dass dieselben logischen Eigenschaften, die verwendet werden, um zu argumentieren, dass LLMs empfindungsfähig oder menschenähnlich sind, in einem System vorhanden sind, das aus mittelalterlichen Nutztieren und Scripting-Tools besteht. Wenn das Argument für LLMs gilt, muss es auch für die Ziegen gelten – was aufzeigt, wie fehlerhaft die ursprüngliche Argumentation ist.

Was sollten KI-Entwickler aus dieser Forschung mitnehmen?

Teste Ausgaben anhand von Fakten, nicht daran, wie sicher oder flüssig die Antwort klingt. LLMs führen Next-Token-Vorhersagen über erlernte Muster durch; Vertrauen und Bewertung auf dieser Realität aufzubauen führt zu besseren und sichereren Systemen, als menschenähnliches Denken vorauszusetzen.

Was ist Substratunabhängigkeit und warum ist sie hier relevant?

Substratunabhängigkeit bedeutet, dass dieselbe Berechnung auf jedem ausreichend ausdrucksstarken System ausgeführt werden kann – ob Silizium, Neuronen oder Ziegen in einem Strategiespiel von 1999. De Wynter nutzt dies, um zu argumentieren, dass Verhaltenstests Empfindungsfähigkeit oder menschenähnliche Kognition in LLMs nicht zuverlässig erkennen können.

1 / 1

Age of Empires 2 Große Sprachmodelle Adrian de Wynter Microsoft Research KI-Denkvermögen Neuronale Netze game-review-take

Skill Issue Heute

In this article (3)

Große Sprachmodell-Inferenz ## Was ist ein großes Sprachmodell? Ein großes Sprachmodell (LLM) ist eine Art künstliche Intelligenz, die darauf trainiert wurde, Text zu verstehen und zu erzeugen. Es lernt, indem es riesige Mengen an geschriebenem Text liest – Bücher, Webseiten, Artikel und vieles mehr. ## Wie lernt es? Das Modell lernt, indem es versucht, das nächste Wort in einem Satz vorherzusagen. Stell dir vor, du vervollständigst immer wieder Lückentexte – nach Milliarden von Beispielen beginnt das Modell, Sprache wirklich gut zu verstehen. ## Was bedeutet „Inferenz"? Inferenz ist das, was passiert, wenn du ein trainiertes Modell tatsächlich verwendest. Das Training ist der Lernprozess; Inferenz ist das Anwenden des Gelernten, um Antworten zu generieren. Stell dir vor, du lernst für eine Prüfung (Training) und machst sie dann (Inferenz). ## Wie erzeugt das Modell Text? - Es nimmt deinen Eingabetext (das sogenannte „Prompt") entgegen - Es verarbeitet ihn durch viele Schichten mathematischer Berechnungen - Es sagt das wahrscheinlichste nächste Wort (oder Token) vorher - Es wiederholt diesen Vorgang, bis die Antwort vollständig ist ## Was ist ein Token? Token sind die kleinen Texteinheiten, mit denen das Modell arbeitet. Ein Token kann sein: - Ein ganzes Wort wie „Katze" - Ein Wortteil wie „un-" oder „-lich" - Ein Satzzeichen wie „." ## Die wichtigsten Schritte bei der Inferenz 1. **Tokenisierung** – Dein Text wird in Token aufgeteilt 2. **Einbettung** – Jeder Token wird in eine Zahlenreihe umgewandelt 3. **Aufmerksamkeitsberechnung** – Das Modell prüft, welche Wörter zueinander in Beziehung stehen 4. **Vorhersage** – Das Modell wählt das nächste Token aus 5. **Ausgabe** – Die Token werden wieder in lesbaren Text umgewandelt ## Warum dauert die Inferenz manchmal? Große Modelle haben Milliarden von Parametern (Zahlen, aus denen das Modell besteht). Jede Antwort zu generieren erfordert Billionen von Rechenoperationen – weshalb leistungsstarke Hardware benötigt wird. ## Temperatur und Kreativität Ein interessanter Parameter heißt „Temperatur". Er steuert, wie kreativ oder vorhersehbar die Antworten des Modells sind: - **Niedrige Temperatur** – Das Modell wählt vorhersehbarere, konservativere Wörter - **Hohe Temperatur** – Das Modell wählt überraschendere, kreativere Wörter ## Kontextfenster Jedes Modell kann sich nur eine bestimmte Menge Text auf einmal „merken". Diese Grenze wird als Kontextfenster bezeichnet. Wenn ein Gespräch zu lang wird, „vergisst" das Modell möglicherweise frühere Teile davon. ## Zusammenfassung Große Sprachmodelle erzeugen Text, indem sie immer wieder das nächste wahrscheinlichste Token vorhersagen. Inferenz ist der Prozess, bei dem das trainierte Modell auf neue Eingaben reagiert – ein faszinierendes Zusammenspiel aus Mathematik, Sprache und Rechenleistung.

Ein Microsoft-Forscher hat in Age of Empires 2 ein neuronales Netz aus Ziegen gebaut. Der Punkt ist nicht das, was du denkst.

Key Takeaways

LLMs erzeugen menschlich klingende Ausgaben durch statistische Mustererkennung, nicht durch menschenähnliches Denken; der Aufbau von KI-Systemen ohne Verständnis dieses Unterschieds führt zu unzuverlässigen Designs.
Teste KI-Ausgaben anhand von überprüfbaren Fakten, nicht anhand von Flüssigkeit oder Sicherheit. Eine Antwort, die korrekt klingt, ist nicht dasselbe wie eine Antwort, die korrekt ist.
De Wynters Ziegennetzwerk zeigt formal, dass das Substrat allein keine Empfindungsfähigkeit oder Kognition begründen kann – ein Rahmen, der Teams bei der Prüfung und dem Vertrauen in KI-Funktionen leiten sollte.

Das Setup: Ziegen …Das eigentliche Ar…Was Entwickler und…

Skill Issue · Heute

Adrian de Wynters absurdes Experiment ist das bisher deutlichste Argument dafür, warum Entwickler und Lernende aufhören sollten, KI zu vermenschlichen.

Stell dir vor: ein mittelalterliches Strategiespiel, ein Szenario-Editor, einige Ziegen und ein funktionierendes neuronales Netz. Keine Metapher. Keine Folie aus dem Pitch-Deck eines Tech-Bros. Ein Microsoft-Forscher hat das tatsächlich gemacht – und der Witz an der ganzen Sache ist eine der nützlichsten Ideen, die jemand im KI-Bereich seit Jahren vorgebracht hat: Hör auf anzunehmen, dass große Sprachmodelle so denken wie Menschen, nur weil sie aus menschlicher Sprache gelernt haben.

Das Setup: Ziegen als Bits, Brücken als Logik

Adrian de Wynter, Forscher bei Microsoft und der University of York, hat laut The Decoder ein funktionierendes neuronales Netz im Karten-Editor von Age of Empires II gebaut. Das Design ist mit Absicht völlig absurd. Eine Ziege, die auf Gras steht, entspricht 0. Eine Ziege, die auf einer Brücke steht, entspricht 1. De Wynter konstruiert Logikgatter mithilfe der Scripting-Tools des Szenario-Editors, und Eisrampen mit wartenden Ziegen verhindern, dass die Berechnungen durcheinandergeraten. Das fertige Mini-Netzwerk besteht aus zwei XNOR-Gattern und einem AND-Gatter und erlernt die logische AND-Funktion. Das ist ein echtes, funktionierendes neuronales Netz. Es läuft in einem Echtzeit-Strategiespiel aus dem Jahr 1999. Die Ziegen wissen davon nichts.

De Wynter geht im Anhang noch weiter, so The Decoder: Er zeigt, dass theoretisch jeder Computer mithilfe einer idealisierten Version des Spiels nachgebaut werden könnte, was Age of Empires II rechnerisch genauso ausdrucksstark macht wie jedes andere System, das ein LLM ausführen kann. Das bedeutet: Wer bereit ist zu argumentieren, dass ein LLM bewusst oder empfindungsfähig ist, weil es Sprache verarbeitet und menschlich klingende Ausgaben erzeugt, muss dasselbe Argument auf die Ziegen anwenden. Das will man wahrscheinlich nicht.

Das eigentliche Argument: Anthropomorphismus ist ein Design-Fehler

Die These des Papers, wie von 404 Media berichtet, lautet, dass „der Zweck des Papers darin besteht, formal zu zeigen, dass wir zu schnell anthropomorphisieren." Das ist keine Stimmungsfrage, sondern eine methodische Kritik mit direkten Konsequenzen dafür, wie KI-Systeme gebaut, getestet und eingeschätzt werden.

Wenn Forscher und Produktteams davon ausgehen, dass ein LLM so denkt wie ein Mensch, weil es auf menschlichen Texten trainiert wurde, entwickeln sie Evaluierungen auf Basis dieser Annahme. Sie fordern Modelle auf, ihre Überlegungen zu erklären, behandeln flüssige Ausgaben als Beweis für Verstehen und verwechseln Mustererkennung im großen Maßstab mit echter Schlussfolgerung.

De Wynters Experiment ist ein formales Reductio ad absurdum: Dieselben logischen Eigenschaften, die LLMs als Belege für menschenähnliche Kognition zugeschrieben werden, sind in einem System vorhanden, das aus mittelalterlichen Nutztieren und Palisadenwänden besteht.

Für alle, die mit KI entwickeln, ist das kein Grund, jedem Modell-Output zu misstrauen. Es ist ein Grund, Tests und Vertrauenskalibrierung danach auszurichten, was LLMs tatsächlich tun – nämlich Next-Token-Vorhersage auf Basis erlernter statistischer Muster –, und nicht danach, was sie zu tun scheinen, nämlich denken. Dieser Unterschied ist enorm wichtig, wenn man entscheidet, ob man einem KI-System erlaubt, folgenreiche Aufgaben unbeaufsichtigt zu übernehmen.

Was Entwickler und Lernende daraus mitnehmen sollten

PC Gamer berichtete das zentrale Framing direkt aus de Wynters erklärtem Ziel: Menschen dazu zu bringen, „aufzuhören anzunehmen, dass LLMs sich wie Menschen verhalten, nur weil sie mit natürlicher Sprache trainiert wurden." Das ist ein umsetzbarer Hinweis, kein akademisches Schulterbeklopfen.

Wenn du gerade lernst, mit KI-Tools zu entwickeln, ist die dauerhafteste Fähigkeit, die du dir jetzt aneignen kannst, die Gewohnheit, Ausgaben anhand von Grundwahrheiten zu testen – und nicht danach, ob die Antwort selbstsicher und kohärent klingt. Ein LLM, das seine Antwort flüssig erklärt, hat nicht zwingend recht; es ist nur sehr gut darin, so zu klingen, als hätte es recht.

XDA Developers hat das Projekt als Beweis dafür eingerahmt, dass LLMs nicht empfindungsfähig sind – und diese Einrahmung hält stand. Aber die konstruktivere Lesart ist, dass Empfindungsfähigkeit ohnehin die falsche Frage ist. Die nützliche Frage lautet: Unter welchen Bedingungen liefert dieses System zuverlässige Ausgaben, und wie überprüfe ich das?

De Wynters Ziegen-Netzwerk kann kein Kundensupport-Ticket beantworten oder einen Unterrichtsplan schreiben, aber es macht die zugrundeliegende Architektur auf eine Weise greifbar, an der hundert Erklär-Artikel gescheitert sind. Manchmal ist der klarste Beweis der absurdeste.

Das ist 10 von 10 für die Methodik, 0 von 10 für die Auswirkungen auf das Tierwohl der Nutztiere – und genau die Art von Forschung, die Pflichtlektüre sein sollte, bevor irgendjemand ein KI-Feature veröffentlicht.

Behalte das im Blick: Wenn sich KI-Evaluierungsrahmen weiterentwickeln, wird de Wynters Kernargument – dass Substratunabhängigkeit der Grund dafür ist, dass Verhaltenstests auf Empfindungsfähigkeit oder menschenähnliches Denken grundlegend unzuverlässig sind – voraussichtlich in der Art und Weise auftauchen, wie ernsthafte Teams „KI-Sicherheit" und Modell-Auditing definieren. Die Ziegen waren zuerst da.

Quellen

Questions & answers

Adrian de Wynter, ein Forscher bei Microsoft und der Universität York, baute ein funktionierendes neuronales Netz im Szenario-Editor von Age of Empires II. Ziegen auf Gras stehen für 0, Ziegen auf Brücken für 1, und das fertige Netzwerk verwendet zwei XNOR-Gatter und ein AND-Gatter, um die logische AND-Funktion zu erlernen.