Mengapa jaringan saraf bertenaga kambing membuktikan sesuatu tentang LLM?

Eksperimen ini menunjukkan bahwa properti logis yang sama yang digunakan untuk berargumen bahwa LLM bersifat sentien atau mirip manusia juga ada dalam sistem yang dibangun dari hewan ternak abad pertengahan dan alat skrip. Jika argumen itu berlaku untuk LLM, maka harus berlaku pula untuk kambing-kambing itu, yang mengungkap betapa cacat penalaran awalnya.

Apa yang harus dipetik oleh para pembangun AI dari penelitian ini?

Uji keluaran terhadap kebenaran nyata, bukan terhadap seberapa percaya diri atau lancar respons terdengar. LLM melakukan prediksi token berikutnya berdasarkan pola yang dipelajari; merancang kepercayaan dan evaluasi berdasarkan kenyataan tersebut menghasilkan sistem yang lebih baik dan lebih aman daripada mengasumsikan penalaran seperti manusia.

Apa itu independensi substrat dan mengapa hal itu penting di sini?

Independensi substrat berarti komputasi yang sama dapat berjalan pada sistem apa pun yang cukup ekspresif, baik silikon, neuron, maupun kambing dalam permainan strategi tahun 1999. De Wynter menggunakan ini untuk berargumen bahwa uji perilaku tidak dapat secara andal mendeteksi sentiens atau kognisi seperti manusia dalam LLM.

1 / 1

Age of Empires 2 Model Bahasa Besar Adrian de Wynter Riset Microsoft Penalaran AI Jaringan Saraf game-review-take

Skill Issue Hari ini

In this article (3)

A Microsoft Researcher Membangun Jaringan Saraf dari Kambing di Age of Empires 2. Maksudnya Bukan yang Kamu Kira.

Key Takeaways

LLM menghasilkan keluaran yang terdengar manusiawi melalui pencocokan pola statistik, bukan penalaran seperti manusia; membangun sistem AI tanpa memahami perbedaan ini menghasilkan desain yang tidak dapat diandalkan.
Uji keluaran AI terhadap kebenaran yang dapat diverifikasi, bukan kelancaran atau kepercayaan diri. Respons yang terdengar benar tidak sama dengan respons yang benar.
Jaringan kambing milik de Wynter secara formal menunjukkan bahwa substrat saja tidak dapat membuktikan sentiens atau kognisi, sebuah kerangka kerja yang seharusnya membentuk cara tim mengaudit dan mempercayai fitur AI.

Latar Belakang: Ka…Argumen Sebenarnya…Apa yang Harus Dip…

Skill Issue · Hari ini

Adrian de Wynter's absurdist experiment adalah argumen paling jelas sejauh ini tentang mengapa para pembuat dan pelajar harus berhenti mengantropomorfisasi AI.

Adrian de Wynter melakukan eksperimen absurd yang menjadi argumen paling jelas mengapa para pembangun dan pelajar harus berhenti mengantropomorfisasi AI.

Bayangkan ini: sebuah game strategi abad pertengahan, editor skenario, beberapa kambing, dan jaringan saraf tiruan yang benar-benar berfungsi. Bukan metafora. Bukan slide presentasi ala tech-bro. Seorang peneliti Microsoft benar-benar melakukan ini, dan inti dari seluruh eksperimen tersebut adalah salah satu gagasan paling berguna yang pernah dikemukakan siapa pun di dunia AI dalam beberapa tahun terakhir: berhentilah berasumsi bahwa model bahasa besar berpikir seperti manusia, hanya karena mereka belajar dari bahasa manusia.

Latar Belakang: Kambing sebagai Bit, Jembatan sebagai Logika

Adrian de Wynter, seorang peneliti di Microsoft dan University of York, membangun jaringan saraf tiruan yang berfungsi di dalam editor peta Age of Empires II, menurut The Decoder. Desainnya sengaja dibuat seabsurd mungkin. Seekor kambing yang berdiri di atas rumput sama dengan 0. Seekor kambing yang berdiri di atas jembatan sama dengan 1. De Wynter membangun gerbang logika menggunakan alat skrip editor skenario, dan landai es dengan kambing-kambing yang menunggu menjaga agar perhitungan tidak kacau. Mini-jaringan yang sudah jadi terdiri dari dua gerbang XNOR dan satu gerbang AND, dan ia mempelajari fungsi AND secara logis. Itu adalah jaringan saraf tiruan yang nyata dan berfungsi. Ia berjalan di atas game strategi real-time buatan tahun 1999. Para kambing tidak mengetahui hal ini.

De Wynter melangkah lebih jauh di bagian lampiran, menurut The Decoder: ia menunjukkan bahwa, secara teori, komputer mana pun dapat direplikasi menggunakan versi ideal dari game tersebut, sehingga Age of Empires II sama ekspresif secara komputasi dengan substrat apa pun yang dapat menjalankan LLM. Artinya, jika kamu bersedia berargumen bahwa sebuah LLM memiliki kesadaran atau perasaan karena ia memproses bahasa dan menghasilkan keluaran yang terdengar seperti manusia, kamu harus menerapkan argumen yang sama pada para kambing itu. Kamu mungkin tidak ingin melakukan itu.

Argumen Sebenarnya: Antropomorfisme Adalah Bug dalam Desain

Tesis makalah ini, sebagaimana diliput oleh 404 Media, adalah bahwa "tujuan makalah ini adalah untuk secara formal menunjukkan bahwa kita terlalu mudah mengantropomorfisasi." Itu bukan sekadar kesan; itu adalah kritik metodologis dengan konsekuensi langsung terhadap cara sistem AI dibangun, diuji, dan dipercaya.

Ketika para peneliti dan tim produk berasumsi bahwa sebuah LLM bernalar seperti manusia karena dilatih dengan teks manusia, mereka merancang evaluasi berdasarkan asumsi tersebut. Mereka meminta model untuk menjelaskan penalarannya, memperlakukan keluaran yang fasih sebagai bukti pemahaman, dan keliru mengira pencocokan pola dalam skala besar sebagai inferensi yang sesungguhnya.

Eksperimen de Wynter adalah reductio ad absurdum yang formal: properti logis yang sama yang dikaitkan pada LLM sebagai bukti kognisi mirip manusia juga hadir dalam sistem yang terbuat dari hewan ternak abad pertengahan dan dinding palisade.

Bagi siapa pun yang membangun dengan AI, ini bukan alasan untuk tidak mempercayai setiap keluaran model. Ini adalah alasan untuk merancang pengujian dan kalibrasi kepercayaanmu berdasarkan apa yang sebenarnya dilakukan LLM — yaitu prediksi token berikutnya atas pola statistik yang dipelajari — bukan berdasarkan apa yang tampak mereka lakukan, yaitu berpikir. Perbedaan ini sangat penting ketika kamu memutuskan apakah akan membiarkan sistem AI menangani tugas-tugas penting tanpa pengawasan.

Apa yang Harus Dipetik oleh Para Pembangun dan Pelajar dari Ini

PC Gamer melaporkan framing judul langsung dari tujuan yang dinyatakan de Wynter: membuat orang "berhenti berasumsi bahwa LLM berperilaku seperti manusia hanya karena mereka dilatih dengan bahasa alami." Itu adalah saran yang bisa ditindaklanjuti, bukan sekadar pamer akademis.

Jika kamu sedang belajar membangun dengan alat AI, keterampilan paling tahan lama yang bisa kamu kembangkan saat ini adalah kebiasaan menguji keluaran terhadap kebenaran yang nyata — bukan terhadap apakah respons tersebut terdengar percaya diri dan koheren. LLM yang menjelaskan jawabannya dengan lancar belum tentu benar; ia hanya sangat pandai terdengar seolah-olah benar.

XDA Developers membingkai proyek ini sebagai bukti bahwa LLM tidak memiliki kesadaran, dan framing itu masuk akal. Namun pembacaan yang lebih konstruktif adalah bahwa kesadaran sama sekali bukan pertanyaan yang tepat. Pertanyaan yang berguna adalah: dalam kondisi apa sistem ini menghasilkan keluaran yang andal, dan bagaimana cara memverifikasinya?

Jaringan kambing de Wynter tidak bisa menjawab tiket dukungan pelanggan atau menulis rencana pelajaran, tetapi ia membuat arsitektur yang mendasarinya menjadi mudah dipahami dengan cara yang gagal dilakukan oleh ratusan artikel penjelasan. Kadang-kadang bukti yang paling jelas adalah yang paling absurd.

Metodologi: 10 dari 10. Implikasi kesejahteraan ternak: 0 dari 10. Dan ini persis jenis penelitian yang seharusnya wajib dibaca sebelum siapa pun meluncurkan fitur AI.

Pantau terus: seiring berkembangnya kerangka evaluasi AI, ekspektasilah argumen inti de Wynter — bahwa independensi substrat adalah alasan mengapa uji perilaku untuk kesadaran atau penalaran mirip manusia secara fundamental tidak dapat diandalkan — akan muncul dalam cara tim-tim serius mendefinisikan "keamanan AI" dan audit model. Para kambing sudah sampai duluan.

Sumber

Questions & answers

Adrian de Wynter, seorang peneliti di Microsoft dan Universitas York, membangun jaringan saraf yang berfungsi di dalam editor skenario Age of Empires II. Kambing di atas rumput mewakili 0, kambing di atas jembatan mewakili 1, dan jaringan yang sudah jadi menggunakan dua gerbang XNOR dan satu gerbang AND untuk mempelajari fungsi logika AND.