Por que uma rede neural movida a cabras prova algo sobre LLMs?

O experimento mostra que as mesmas propriedades lógicas usadas para argumentar que LLMs são sencientes ou semelhantes a humanos estão presentes em um sistema construído com animais de fazenda medievais e ferramentas de script. Se o argumento vale para LLMs, ele também deve valer para as cabras, o que expõe o quão falho é o raciocínio original.

O que os desenvolvedores de IA devem aprender com esta pesquisa?

Teste os resultados em relação à verdade verificável, não com base em quão confiante ou fluente a resposta soa. LLMs realizam previsão do próximo token sobre padrões aprendidos; projetar confiança e avaliação com base nessa realidade produz sistemas melhores e mais seguros do que supor um raciocínio semelhante ao humano.

O que é independência de substrato e por que isso importa aqui?

Independência de substrato significa que o mesmo processamento pode ser executado em qualquer sistema suficientemente expressivo, seja silício, neurônios ou cabras em um jogo de estratégia de 1999. De Wynter usa isso para argumentar que testes comportamentais não conseguem detectar de forma confiável senciência ou cognição semelhante à humana em LLMs.

1 / 1

Age of Empires 2 Grandes Modelos de Linguagem Adrian de Wynter Microsoft Research Raciocínio em IA Redes Neurais game-review-take

Skill Issue Hoje

In this article (3)

Grande modelo de linguagem com raciocínio

A Pesquisadora da Microsoft Construiu uma Rede Neural com Cabras no Age of Empires 2. O Ponto Não É o Que Você Pensa.

Key Takeaways

LLMs produzem respostas que soam humanas por meio de correspondência estatística de padrões, não por raciocínio semelhante ao humano; construir sistemas de IA sem entender essa distinção leva a designs não confiáveis.
Teste os resultados da IA em relação a uma verdade verificável, não com base na fluência ou confiança. Uma resposta que soa correta não é o mesmo que uma resposta que está correta.
A rede de cabras de De Wynter demonstra formalmente que o substrato por si só não pode estabelecer sentenciência ou cognição, uma estrutura que deve orientar como as equipes auditam e confiam em recursos de IA.

A Proposta: Cabras…O Argumento Real: …O Que Criadores e …

Skill Issue · Hoje

Adrian de Wynter's absurdist experiment is the clearest argument yet for why builders and learners should stop anthropomorphizing AI. O experimento absurdista de Adrian de Wynter é o argumento mais claro até agora sobre por que criadores e aprendizes devem parar de antropomorfizar a IA.

Adrian de Wynter's absurdist experiment is the clearest argument yet for why builders and learners should stop anthropomorphizing AI. O experimento absurdista de Adrian de Wynter é o argumento mais claro até agora para por que criadores e estudantes deveriam parar de antropomorfizar a IA.

Imagine um jogo de estratégia medieval, um editor de cenários, algumas cabras e uma rede neural funcionando. Não é metáfora. Não é slide de apresentação de startup. Um pesquisador da Microsoft realmente fez isso, e o ponto central de toda essa história é uma das ideias mais úteis que alguém na área de IA trouxe à tona nos últimos anos: pare de assumir que grandes modelos de linguagem pensam como humanos só porque aprenderam a partir de linguagem humana.

A Proposta: Cabras como Bits, Pontes como Lógica

Adrian de Wynter, pesquisador da Microsoft e da Universidade de York, construiu uma rede neural funcional dentro do editor de mapas de Age of Empires II, segundo o The Decoder. O design é completamente absurdo de propósito. Uma cabra parada na grama equivale a 0. Uma cabra parada em uma ponte equivale a 1. De Wynter constrói portas lógicas usando as ferramentas de script do editor de cenários, e rampas de gelo com cabras em espera evitam que os cálculos se percam. A mini-rede finalizada consiste em duas portas XNOR e uma porta AND, e ela aprende a função lógica AND. Isso é uma rede neural real, funcionando. Rodando em um jogo de estratégia em tempo real de 1999. As cabras não sabem disso.

De Wynter vai além no apêndice, segundo o The Decoder: ele demonstra que, em teoria, qualquer computador poderia ser replicado usando uma versão idealizada do jogo, tornando Age of Empires II tão expressivo computacionalmente quanto qualquer substrato capaz de rodar um LLM. O que significa que, se você está disposto a argumentar que um LLM é consciente ou senciente porque processa linguagem e produz saídas que soam humanas, você precisa estender esse mesmo argumento para as cabras. Provavelmente você não quer fazer isso.

O Argumento Real: Antropomorfismo É um Bug de Design

A tese do artigo, conforme coberta pelo 404 Media, é que "o objetivo do artigo é mostrar formalmente que antropomorfizamos com facilidade demais." Isso não é uma impressão vaga; é uma crítica metodológica com consequências diretas para como sistemas de IA são construídos, testados e nos quais se deposita confiança.

Quando pesquisadores e equipes de produto assumem que um LLM raciocina como um humano porque foi treinado em texto humano, eles constroem avaliações em torno dessa suposição. Pedem aos modelos que expliquem seu raciocínio, tratam saídas fluentes como evidência de compreensão e confundem correspondência de padrões em escala com inferência genuína.

O experimento de De Wynter é um reductio ad absurdum formal: as mesmas propriedades lógicas atribuídas aos LLMs como evidência de cognição semelhante à humana estão presentes em um sistema feito de animais de fazenda medievais e paredes de paliçada.

Para quem constrói com IA, isso não é motivo para desconfiar de toda saída de modelo. É um motivo para projetar seus testes e sua calibração de confiança em torno do que os LLMs realmente fazem — que é a predição do próximo token sobre padrões estatísticos aprendidos — em vez do que eles parecem fazer, que é pensar. A distinção importa enormemente quando você está decidindo se deve deixar um sistema de IA lidar com tarefas consequentes sem supervisão.

O Que Criadores e Estudantes Devem Tirar Disso

O PC Gamer reportou o enquadramento diretamente a partir do objetivo declarado de De Wynter: fazer as pessoas "pararem de assumir que os LLMs se comportam como humanos só porque foram treinados com linguagem natural." Isso é um conselho acionável, não apenas uma exibição acadêmica.

Se você está aprendendo a construir com ferramentas de IA, a habilidade mais duradoura que pode desenvolver agora é o hábito de testar as saídas em relação à verdade concreta, em vez de avaliar se a resposta soa confiante e coerente. Um LLM que explica sua resposta de forma fluente não está necessariamente correto; ele é simplesmente muito bom em parecer que está.

O XDA Developers enquadrou o projeto como prova de que os LLMs não são sencientes, e esse enquadramento se sustenta. Mas a leitura mais construtiva é que senciência é a pergunta errada por completo. A pergunta útil é: em quais condições esse sistema produz saídas confiáveis, e como eu as verifico?

A rede de cabras de De Wynter não consegue responder um ticket de suporte ao cliente nem escrever um plano de aula, mas torna a arquitetura subjacente compreensível de uma forma que centenas de artigos explicativos não conseguiram. Às vezes, a prova mais clara é a mais absurda.

Isso é 10 em 10 em metodologia, zero em 10 em implicações para o bem-estar do rebanho, e exatamente o tipo de pesquisa que deveria ser leitura obrigatória antes de qualquer pessoa lançar um recurso de IA.

Fique de olho: à medida que os frameworks de avaliação de IA evoluem, espere que o argumento central de De Wynter — de que a independência de substrato é o motivo pelo qual testes comportamentais para senciência ou raciocínio semelhante ao humano são fundamentalmente não confiáveis — apareça na forma como equipes sérias definem "segurança de IA" e auditoria de modelos. As cabras chegaram lá primeiro.

Fontes

Questions & answers

Adrian de Wynter, pesquisador da Microsoft e da Universidade de York, construiu uma rede neural funcional dentro do editor de cenários de Age of Empires II. Cabras na grama representam 0, cabras em pontes representam 1, e a rede finalizada usa duas portas XNOR e uma porta AND para aprender a função lógica AND.