
En este artículo (3)
Un investigador de Microsoft construyó una red neuronal con cabras en Age of Empires 2. El punto no es lo que crees.
Puntos Clave
- Los LLMs producen resultados que suenan humanos mediante la correspondencia estadística de patrones, no mediante un razonamiento similar al humano; construir sistemas de IA sin comprender esta distinción lleva a diseños poco fiables.
- Prueba los resultados de la IA contra verdades verificables, no contra fluidez o confianza. Una respuesta que suena correcta no es lo mismo que una respuesta que es correcta.
- La red de cabras de De Wynter demuestra formalmente que el sustrato por sí solo no puede establecer la conciencia ni la cognición, un marco que debería orientar cómo los equipos auditan y confían en las funciones de IA.
Adrian de Wynter's absurdist experiment is the clearest argument yet for why builders and learners should stop anthropomorphizing AI. El experimento absurdista de Adrian de Wynter es el argumento más claro hasta ahora de por qué los creadores y estudiantes deberían dejar de antropomorfizar la IA.
Adrian de Wynter's absurdist experiment is the clearest argument yet for why builders and learners should stop anthropomorphizing AI. El experimento absurdista de Adrian de Wynter es el argumento más claro hasta ahora de por qué los creadores y los estudiantes deberían dejar de antropomorfizar la IA.
Imagina esto: un videojuego de estrategia medieval, un editor de escenarios, algunas cabras y una red neuronal funcional. No es una metáfora. No es una diapositiva de presentación de un emprendedor tecnológico. Un investigador de Microsoft realmente hizo esto, y el punto central de todo el asunto es una de las ideas más útiles que alguien en el campo de la IA ha planteado en años: deja de asumir que los modelos de lenguaje de gran escala piensan como los humanos, solo porque aprendieron del lenguaje humano.
La configuración: cabras como bits, puentes como lógica
Adrian de Wynter, investigador en Microsoft y la Universidad de York, construyó una red neuronal funcional dentro del editor de mapas de Age of Empires II, según The Decoder. El diseño es completamente absurdo a propósito. Una cabra parada sobre hierba equivale a 0. Una cabra parada sobre un puente equivale a 1. De Wynter construye compuertas lógicas usando las herramientas de scripting del editor de escenarios, y rampas de hielo con cabras en espera evitan que los cálculos se desordenen. La mini-red terminada consta de dos compuertas XNOR y una compuerta AND, y aprende la función lógica AND. Eso es una red neuronal real y funcional. Corre en un juego de estrategia en tiempo real de 1999. Las cabras no saben esto.
De Wynter va más lejos en el apéndice, según The Decoder: demuestra que, en teoría, cualquier computadora podría replicarse usando una versión idealizada del juego, lo que hace que Age of Empires II sea tan expresivo computacionalmente como cualquier sustrato capaz de ejecutar un LLM. Lo que significa que, si estás dispuesto a argumentar que un LLM es consciente o sintiente porque procesa lenguaje y produce resultados que suenan humanos, tienes que extender ese mismo argumento a las cabras. Probablemente no quieras hacer eso.
El argumento real: el antropomorfismo es un error de diseño
La tesis del artículo, según la cobertura de 404 Media, es que "el punto del artículo es demostrar formalmente que antropomorfizamos con demasiada facilidad". Eso no es solo una sensación; es una crítica metodológica con consecuencias directas en cómo los sistemas de IA se construyen, se evalúan y se les otorga confianza.
Cuando investigadores y equipos de producto asumen que un LLM razona como un humano porque fue entrenado con texto humano, diseñan evaluaciones en torno a esa suposición. Le piden a los modelos que expliquen su razonamiento, tratan los resultados fluidos como evidencia de comprensión, y confunden la coincidencia de patrones a gran escala con inferencia genuina.
El experimento de De Wynter es un reductio ad absurdum formal: las mismas propiedades lógicas que se le atribuyen a los LLMs como evidencia de cognición similar a la humana están presentes en un sistema hecho de animales de granja medievales y empalizadas. Para quienes desarrollan con IA, esto no es razón para desconfiar de cada resultado de un modelo. Es una razón para diseñar tus pruebas y tu calibración de confianza en torno a lo que los LLMs realmente hacen —que es la predicción del siguiente token sobre patrones estadísticos aprendidos— en lugar de lo que parecen hacer, que es pensar. La distinción importa enormemente cuando decides si dejar que un sistema de IA maneje tareas importantes sin supervisión.
Lo que los creadores y aprendices deben sacar de esto
PC Gamer reportó el enfoque del titular directamente desde el objetivo declarado de De Wynter: lograr que la gente "deje de asumir que los LLMs se comportan como humanos solo porque fueron entrenados con lenguaje natural". Ese es un consejo accionable, no solo presunción académica.
Si estás aprendiendo a construir con herramientas de IA, la habilidad más duradera que puedes desarrollar ahora mismo es el hábito de contrastar los resultados con la verdad de base, en lugar de evaluar si la respuesta suena segura y coherente. Un LLM que explica su respuesta con fluidez no necesariamente es correcto; simplemente es muy bueno sonando como si lo fuera.
XDA Developers presentó el proyecto como prueba de que los LLMs no son sintientes, y ese enfoque se sostiene. Pero la lectura más constructiva es que la sintiencia es la pregunta equivocada por completo. La pregunta útil es: ¿bajo qué condiciones produce este sistema resultados confiables, y cómo los verifico?
La red de cabras de De Wynter no puede responder un ticket de atención al cliente ni redactar un plan de lección, pero hace que la arquitectura subyacente sea comprensible de una manera que cien artículos explicativos no han logrado. A veces la prueba más clara es la más absurda.
Eso es un 10 sobre 10 en metodología, un cero sobre 10 en implicaciones para el bienestar del ganado, y exactamente el tipo de investigación que debería ser lectura obligatoria antes de que alguien lance una función de IA.
Mantente atento: a medida que los marcos de evaluación de IA evolucionen, espera que el argumento central de De Wynter —que la independencia del sustrato es la razón por la que las pruebas conductuales para la sintiencia o el razonamiento similar al humano son fundamentalmente poco confiables— aparezca en cómo los equipos serios definen la "seguridad de la IA" y la auditoría de modelos. Las cabras llegaron primero.