¿Por qué una red neuronal impulsada por cabras demuestra algo sobre los LLMs?

El experimento muestra que las mismas propiedades lógicas utilizadas para argumentar que los LLMs son conscientes o similares a los humanos están presentes en un sistema construido con animales de granja medievales y herramientas de scripting. Si el argumento es válido para los LLMs, también debe serlo para las cabras, lo que expone lo defectuoso del razonamiento original.

¿Qué deben aprender los creadores de IA de esta investigación?

Prueba los resultados contra la verdad verificable, no contra qué tan confiada o fluida suena la respuesta. Los LLMs realizan predicción del siguiente token sobre patrones aprendidos; diseñar la confianza y la evaluación en torno a esa realidad produce sistemas mejores y más seguros que asumir un razonamiento similar al humano.

¿Qué es la independencia del sustrato y por qué es relevante aquí?

La independencia del sustrato significa que el mismo cómputo puede ejecutarse en cualquier sistema suficientemente expresivo, ya sea silicio, neuronas o cabras en un videojuego de estrategia de 1999. De Wynter utiliza esto para argumentar que las pruebas conductuales no pueden detectar de manera fiable la conciencia ni la cognición similar a la humana en los LLMs.

1 / 1

Age of Empires 2 Modelos de Lenguaje de Gran Escala Adrian de Wynter Microsoft Research Razonamiento de IA Redes Neuronales game-review-take

Skill Issue Hoy

En este artículo (3)

Grande modelos de lenguaje razonamiento Wait, let me provide the proper translation: Razonamiento de los grandes modelos de lenguaje --- *(No additional content was provided beyond the field label and title. If you have the full article body to translate, please share it and I will translate it in full, preserving all markdown structure, fenced figure blocks, headings, lists, and blank lines as specified.)*

Un investigador de Microsoft construyó una red neuronal con cabras en Age of Empires 2. El punto no es lo que crees.

Puntos Clave

Los LLMs producen resultados que suenan humanos mediante la correspondencia estadística de patrones, no mediante un razonamiento similar al humano; construir sistemas de IA sin comprender esta distinción lleva a diseños poco fiables.
Prueba los resultados de la IA contra verdades verificables, no contra fluidez o confianza. Una respuesta que suena correcta no es lo mismo que una respuesta que es correcta.
La red de cabras de De Wynter demuestra formalmente que el sustrato por sí solo no puede establecer la conciencia ni la cognición, un marco que debería orientar cómo los equipos auditan y confían en las funciones de IA.

La configuración: …El argumento real:…Lo que los creador…

Skill Issue · Hoy

Adrian de Wynter's absurdist experiment is the clearest argument yet for why builders and learners should stop anthropomorphizing AI. El experimento absurdista de Adrian de Wynter es el argumento más claro hasta ahora de por qué los creadores y estudiantes deberían dejar de antropomorfizar la IA.

Adrian de Wynter's absurdist experiment is the clearest argument yet for why builders and learners should stop anthropomorphizing AI. El experimento absurdista de Adrian de Wynter es el argumento más claro hasta ahora de por qué los creadores y los estudiantes deberían dejar de antropomorfizar la IA.

Imagina esto: un videojuego de estrategia medieval, un editor de escenarios, algunas cabras y una red neuronal funcional. No es una metáfora. No es una diapositiva de presentación de un emprendedor tecnológico. Un investigador de Microsoft realmente hizo esto, y el punto central de todo el asunto es una de las ideas más útiles que alguien en el campo de la IA ha planteado en años: deja de asumir que los modelos de lenguaje de gran escala piensan como los humanos, solo porque aprendieron del lenguaje humano.

La configuración: cabras como bits, puentes como lógica

Adrian de Wynter, investigador en Microsoft y la Universidad de York, construyó una red neuronal funcional dentro del editor de mapas de Age of Empires II, según The Decoder. El diseño es completamente absurdo a propósito. Una cabra parada sobre hierba equivale a 0. Una cabra parada sobre un puente equivale a 1. De Wynter construye compuertas lógicas usando las herramientas de scripting del editor de escenarios, y rampas de hielo con cabras en espera evitan que los cálculos se desordenen. La mini-red terminada consta de dos compuertas XNOR y una compuerta AND, y aprende la función lógica AND. Eso es una red neuronal real y funcional. Corre en un juego de estrategia en tiempo real de 1999. Las cabras no saben esto.

De Wynter va más lejos en el apéndice, según The Decoder: demuestra que, en teoría, cualquier computadora podría replicarse usando una versión idealizada del juego, lo que hace que Age of Empires II sea tan expresivo computacionalmente como cualquier sustrato capaz de ejecutar un LLM. Lo que significa que, si estás dispuesto a argumentar que un LLM es consciente o sintiente porque procesa lenguaje y produce resultados que suenan humanos, tienes que extender ese mismo argumento a las cabras. Probablemente no quieras hacer eso.

El argumento real: el antropomorfismo es un error de diseño

La tesis del artículo, según la cobertura de 404 Media, es que "el punto del artículo es demostrar formalmente que antropomorfizamos con demasiada facilidad". Eso no es solo una sensación; es una crítica metodológica con consecuencias directas en cómo los sistemas de IA se construyen, se evalúan y se les otorga confianza.

Cuando investigadores y equipos de producto asumen que un LLM razona como un humano porque fue entrenado con texto humano, diseñan evaluaciones en torno a esa suposición. Le piden a los modelos que expliquen su razonamiento, tratan los resultados fluidos como evidencia de comprensión, y confunden la coincidencia de patrones a gran escala con inferencia genuina.

El experimento de De Wynter es un reductio ad absurdum formal: las mismas propiedades lógicas que se le atribuyen a los LLMs como evidencia de cognición similar a la humana están presentes en un sistema hecho de animales de granja medievales y empalizadas. Para quienes desarrollan con IA, esto no es razón para desconfiar de cada resultado de un modelo. Es una razón para diseñar tus pruebas y tu calibración de confianza en torno a lo que los LLMs realmente hacen —que es la predicción del siguiente token sobre patrones estadísticos aprendidos— en lugar de lo que parecen hacer, que es pensar. La distinción importa enormemente cuando decides si dejar que un sistema de IA maneje tareas importantes sin supervisión.

Lo que los creadores y aprendices deben sacar de esto

PC Gamer reportó el enfoque del titular directamente desde el objetivo declarado de De Wynter: lograr que la gente "deje de asumir que los LLMs se comportan como humanos solo porque fueron entrenados con lenguaje natural". Ese es un consejo accionable, no solo presunción académica.

Si estás aprendiendo a construir con herramientas de IA, la habilidad más duradera que puedes desarrollar ahora mismo es el hábito de contrastar los resultados con la verdad de base, en lugar de evaluar si la respuesta suena segura y coherente. Un LLM que explica su respuesta con fluidez no necesariamente es correcto; simplemente es muy bueno sonando como si lo fuera.

XDA Developers presentó el proyecto como prueba de que los LLMs no son sintientes, y ese enfoque se sostiene. Pero la lectura más constructiva es que la sintiencia es la pregunta equivocada por completo. La pregunta útil es: ¿bajo qué condiciones produce este sistema resultados confiables, y cómo los verifico?

La red de cabras de De Wynter no puede responder un ticket de atención al cliente ni redactar un plan de lección, pero hace que la arquitectura subyacente sea comprensible de una manera que cien artículos explicativos no han logrado. A veces la prueba más clara es la más absurda.

Eso es un 10 sobre 10 en metodología, un cero sobre 10 en implicaciones para el bienestar del ganado, y exactamente el tipo de investigación que debería ser lectura obligatoria antes de que alguien lance una función de IA.

Mantente atento: a medida que los marcos de evaluación de IA evolucionen, espera que el argumento central de De Wynter —que la independencia del sustrato es la razón por la que las pruebas conductuales para la sintiencia o el razonamiento similar al humano son fundamentalmente poco confiables— aparezca en cómo los equipos serios definen la "seguridad de la IA" y la auditoría de modelos. Las cabras llegaron primero.

Fuentes

Preguntas y respuestas

Adrian de Wynter, investigador de Microsoft y de la Universidad de York, construyó una red neuronal funcional dentro del editor de escenarios de Age of Empires II. Las cabras sobre hierba representan el 0, las cabras sobre puentes representan el 1, y la red terminada utiliza dos puertas XNOR y una puerta AND para aprender la función lógica AND.