Pourquoi un réseau de neurones alimenté par des chèvres prouve-t-il quoi que ce soit sur les LLM ?

L'expérience montre que les mêmes propriétés logiques utilisées pour affirmer que les LLM sont conscients ou semblables à des humains sont présentes dans un système construit à partir d'animaux de ferme médiévaux et d'outils de script. Si l'argument est valable pour les LLM, il doit l'être aussi pour les chèvres, ce qui révèle les failles du raisonnement original.

Que doivent retenir les concepteurs d'IA de cette recherche ?

Testez les sorties par rapport à la vérité terrain, et non en fonction de la confiance ou de la fluidité de la réponse. Les LLM effectuent une prédiction du prochain token sur des motifs appris ; concevoir la confiance et l'évaluation autour de cette réalité produit des systèmes meilleurs et plus sûrs que supposer un raisonnement humain.

Qu'est-ce que l'indépendance du substrat et pourquoi est-ce important ici ?

L'indépendance du substrat signifie que le même calcul peut s'exécuter sur n'importe quel système suffisamment expressif, qu'il s'agisse de silicium, de neurones ou de chèvres dans un jeu de stratégie de 1999. De Wynter s'en sert pour affirmer que les tests comportementaux ne peuvent pas détecter de manière fiable la conscience ou la cognition humaine dans les LLM.

1 / 1

Age of Empires 2 Grands modèles de langage Adrian de Wynter Microsoft Research Raisonnement IA Réseaux de neurones game-review-take

Skill Issue Aujourd'hui

In this article (3)

Grand modèle de langage et raisonnement

Un chercheur de Microsoft a construit un réseau de neurones avec des chèvres dans Age of Empires 2. Le but n'est pas ce que vous croyez.

Key Takeaways

Les LLM produisent des résultats qui sonnent humains grâce à la correspondance statistique de motifs, et non par un raisonnement humain ; concevoir des systèmes d'IA sans comprendre cette distinction conduit à des architectures peu fiables.
Testez les sorties de l'IA par rapport à une vérité terrain vérifiable, et non par rapport à leur fluidité ou leur confiance. Une réponse qui semble correcte n'est pas la même chose qu'une réponse qui est correcte.
Le réseau de chèvres de De Wynter démontre formellement que le substrat seul ne peut pas établir la conscience ou la cognition, un cadre qui devrait guider la façon dont les équipes auditent et font confiance aux fonctionnalités d'IA.

La mise en scène :…L'argument central…Ce que les dévelop…

Skill Issue · Aujourd'hui

Adrian de Wynter's absurdist experiment is the clearest argument yet for why builders and learners should stop anthropomorphizing AI. Le projet absurde d'Adrian de Wynter est l'argument le plus convaincant à ce jour pour expliquer pourquoi les créateurs et les apprenants devraient cesser d'anthropomorphiser l'IA.

Adrian de Wynter's absurdist experiment est l'argument le plus clair à ce jour pour expliquer pourquoi les créateurs et les apprenants devraient cesser d'anthropomorphiser l'IA.

Imaginez : un jeu de stratégie médiéval, un éditeur de scénarios, des chèvres, et un réseau de neurones fonctionnel. Ce n'est pas une métaphore. Ce n'est pas une diapositive de présentation de start-up. Un chercheur de Microsoft l'a vraiment fait, et l'objectif de toute cette mise en scène est l'une des idées les plus utiles qu'on ait avancées dans le domaine de l'IA depuis des années : cessons de supposer que les grands modèles de langage pensent comme des humains, simplement parce qu'ils ont appris à partir du langage humain.

La mise en scène : des chèvres comme bits, des ponts comme logique

Adrian de Wynter, chercheur chez Microsoft et à l'Université de York, a construit un réseau de neurones fonctionnel à l'intérieur de l'éditeur de cartes d'Age of Empires II, selon The Decoder. La conception est volontairement complètement absurde. Une chèvre debout sur de l'herbe équivaut à 0. Une chèvre debout sur un pont équivaut à 1. De Wynter construit des portes logiques à l'aide des outils de script de l'éditeur de scénarios, et des rampes de glace avec des chèvres en attente empêchent les calculs d'être perturbés. Le mini-réseau terminé se compose de deux portes XNOR et d'une porte AND, et il apprend la fonction logique AND. C'est un vrai réseau de neurones fonctionnel. Il tourne sur un jeu de stratégie en temps réel sorti en 1999. Les chèvres, elles, n'en savent rien.

De Wynter va plus loin dans l'annexe, toujours selon The Decoder : il démontre que, en théorie, n'importe quel ordinateur pourrait être reproduit à l'aide d'une version idéalisée du jeu, rendant Age of Empires II aussi expressif sur le plan computationnel que n'importe quel substrat capable de faire tourner un LLM. Ce qui signifie que si vous êtes prêt à soutenir qu'un LLM est conscient ou sensible parce qu'il traite du langage et produit des réponses qui sonnent humaines, vous devez étendre ce même argument aux chèvres. Ce que vous ne souhaitez probablement pas faire.

L'argument central : l'anthropomorphisme est un défaut de conception

La thèse de l'article, telle que rapportée par 404 Media, est que « l'objectif de l'article est de montrer formellement que nous anthropomorphisons trop facilement ». Ce n'est pas une simple impression ; c'est une critique méthodologique avec des conséquences directes sur la façon dont les systèmes d'IA sont construits, testés et auxquels on fait confiance.

Lorsque les chercheurs et les équipes produit supposent qu'un LLM raisonne comme un humain parce qu'il a été entraîné sur du texte humain, ils conçoivent des évaluations autour de cette hypothèse. Ils demandent aux modèles d'expliquer leur raisonnement, traitent les réponses fluides comme une preuve de compréhension, et confondent la reconnaissance de motifs à grande échelle avec une véritable inférence.

L'expérience de De Wynter est un reductio ad absurdum formel : les mêmes propriétés logiques attribuées aux LLMs comme preuve d'une cognition semblable à celle des humains sont présentes dans un système composé d'animaux de ferme médiévaux et de palissades. Pour quiconque développe avec l'IA, ce n'est pas une raison de se méfier de chaque réponse d'un modèle. C'est une raison de concevoir vos tests et votre calibration de confiance autour de ce que les LLMs font réellement — c'est-à-dire la prédiction du prochain token à partir de motifs statistiques appris — plutôt que de ce qu'ils semblent faire, c'est-à-dire penser. Cette distinction est d'une importance capitale lorsque vous décidez de confier à un système d'IA des tâches à forts enjeux sans supervision humaine.

Ce que les développeurs et les apprenants doivent retenir

PC Gamer a rapporté la formulation directement à partir de l'objectif déclaré de De Wynter : amener les gens à « cesser de supposer que les LLMs se comportent comme des humains simplement parce qu'ils ont été entraînés avec du langage naturel ». C'est un conseil concret, pas simplement de la vantardise académique.

Si vous apprenez à développer avec des outils d'IA, la compétence la plus durable que vous puissiez acquérir dès maintenant est l'habitude de tester les résultats en les confrontant à la réalité, plutôt qu'en vous demandant si la réponse sonne de façon confiante et cohérente. Un LLM qui explique sa réponse de manière fluide n'est pas nécessairement correct ; il est juste très doué pour donner l'impression de l'être.

XDA Developers a présenté le projet comme la preuve que les LLMs ne sont pas sensibles, et cette lecture tient la route. Mais la lecture la plus constructive est que la question de la sensibilité est tout simplement la mauvaise question. La question utile est : dans quelles conditions ce système produit-il des résultats fiables, et comment puis-je les vérifier ?

Le réseau de chèvres de De Wynter ne peut pas répondre à un ticket de support client ni rédiger un plan de cours, mais il rend l'architecture sous-jacente compréhensible d'une manière que cent articles explicatifs n'ont pas réussi à faire. Parfois, la démonstration la plus claire est la plus absurde.

C'est une méthodologie dix sur dix, zéro sur dix pour les implications en matière de bien-être animal, et exactement le genre de recherche qui devrait être une lecture obligatoire avant que quiconque ne déploie une fonctionnalité d'IA.

À suivre : à mesure que les cadres d'évaluation de l'IA évoluent, attendez-vous à ce que l'argument central de De Wynter — selon lequel l'indépendance du substrat est la raison pour laquelle les tests comportementaux de sensibilité ou de raisonnement humain sont fondamentalement peu fiables — se retrouve dans la façon dont les équipes sérieuses définissent la « sécurité de l'IA » et l'audit des modèles. Les chèvres sont arrivées les premières.

Sources

Questions & answers

Adrian de Wynter, chercheur chez Microsoft et à l'Université de York, a construit un réseau de neurones fonctionnel dans l'éditeur de scénarios d'Age of Empires II. Les chèvres sur l'herbe représentent 0, les chèvres sur les ponts représentent 1, et le réseau terminé utilise deux portes XNOR et une porte ET pour apprendre la fonction logique ET.