
In this article (3)
Arbor Mengalahkan Claude Code dan Codex sebesar 2,5x dengan Anggaran Komputasi yang Sama. Hambatannya Bukan pada Perangkat Keras.
Key Takeaways
- Arbor mengalahkan Claude Code dan Codex sebesar 2,5x pada komputasi yang identik dengan menyusun hipotesis sebagai pohon, bukan daftar tebakan yang datar.
- Hambatan nyata dalam optimasi AI sering kali adalah atribusi, bukan komputasi. Mengisolasi eksperimen agar kegagalan mengajarkan daripada mencemari adalah wawasan inti.
- Arbor bersumber terbuka dan tersedia di arXiv sekarang. Jika Anda membangun agen AI produksi, arsitekturnya layak untuk dipelajari secara langsung.
Kerangka kerja open-source baru dari Universitas Renmin dan Microsoft Research menunjukkan bahwa pengorganisasian hipotesis yang lebih cerdas—bukan komputasi yang lebih banyak—adalah hal yang selama ini kurang diperhatikan dalam optimasi AI.
Sebuah framework open-source baru dari Universitas Renmin dan Microsoft Research menunjukkan bahwa pengorganisasian hipotesis yang lebih cerdas, bukan komputasi yang lebih banyak, adalah hal yang selama ini kurang diperhatikan dalam optimasi AI.
Bayangkan sesi debugging yang tidak pernah dibahas dalam tutorial mana pun: agen AI kamu bekerja sempurna di lingkungan staging, dirilis ke produksi, dan langsung mulai memberikan jawaban halusinasi dengan penuh keyakinan — jawaban yang sama sekali tidak berdasar pada dokumen-dokumenmu yang sebenarnya. Kamu mengubah strategi chunking. Lalu metode retrieval. Lalu system prompt. Kemudian kamu tidak bisa tahu mana dari ketiga hal yang kamu ubah itu yang sebenarnya membantu, karena kamu mengubah ketiganya secara bersamaan. Menurut VentureBeat, masalah keterikatan inilah yang tepat ingin diselesaikan oleh Arbor, dan hasilnya menunjukkan bahwa solusinya bekerja jauh lebih baik dari yang siapa pun perkirakan.
Apa yang Sebenarnya Dilakukan Arbor (dan Mengapa Metafora Pohon Bukan Sekadar Hiasan)
Para peneliti dari Gaoling School of Artificial Intelligence di Renmin University of China dan Microsoft Research merilis Arbor pada 10 Juni 2026 sebagai framework open-source, menurut Crypto Briefing. Ide arsitektur intinya disebut Hypothesis-Tree Refinement (HTR). Alih-alih menjalankan eksperimen coba-coba dalam tumpukan yang saling terkait di mana atribusi menjadi mustahil, Arbor mengorganisir setiap hipotesis perbaikan sebagai sebuah node dalam struktur pohon. Setiap hipotesis diperlakukan sebagai eksperimen yang terisolasi, sehingga perubahan yang berhasil digabungkan dengan bersih dan yang gagal dipangkas tanpa mencemari ruang pencarian lainnya, menurut AI Weekly. Sistem ini mengakumulasi pengetahuan dari kegagalan sebelumnya untuk menghasilkan hipotesis berikutnya yang lebih cerdas, bukan memulai setiap iterasi dari nol.
Ini adalah perbedaan antara seorang ilmuwan yang rajin menyimpan catatan laboratorium dengan yang menuliskan hipotesis di tangannya sendiri pakai spidol. Keduanya menjalankan eksperimen. Tapi hanya satu yang benar-benar bisa belajar dari hasilnya secara sistematis.
Properti pembelajaran kumulatif inilah yang secara arsitektur membedakan Arbor dari pendekatan agen coding AI standar, yang cenderung memperlakukan setiap percobaan sebagai tebakan baru atas masalah yang sebenarnya tidak berubah.
Angka-Angka Benchmark, Dibaca dengan Cermat
Dalam perbandingan benchmark, Arbor mencapai rata-rata peningkatan performa 2,5 kali lipat dibanding Claude Code dan Codex pada anggaran komputasi yang sama, menurut VentureBeat maupun AI Weekly. Pengali utama ini mudah diingat, tetapi angka akurasi yang konkret itulah yang membuat hasilnya benar-benar bisa dipahami: Arbor meningkatkan akurasi BrowseComp held-out hingga 67,7%, sementara Claude Code mencetak 53,33 pada tugas yang sama, menurut Crypto Briefing.
Itu bukan selisih karena pembulatan angka. Itu adalah Arbor yang terus-menerus menggabungkan perbaikan yang terverifikasi, sementara sistem pesaingnya, berdasarkan angka-angka tersebut, pada dasarnya hanya berputar di tempat.
Crypto Briefing lebih lanjut melaporkan bahwa Arbor meraih hasil tes held-out terbaik di setiap satu dari enam tugas optimasi otonom yang dievaluasi — hasil yang sulit dikaitkan dengan keberuntungan atau penyesuaian khusus benchmark. Framework ini digeneralisasi di berbagai tugas: pelatihan model, evaluasi agen, dan sintesis data, serta berjalan pada beberapa backend LLM termasuk GPT-5.5, menurut AI Weekly.
Ketersediaannya sebagai open-source berarti para praktisi tidak perlu menunggu peluncuran produk atau masuk daftar tunggu untuk memeriksa arsitekturnya sendiri. Paper-nya ada di arXiv di arxiv.org/abs/2606.11926 dan metodologinya bisa diperiksa — yang merupakan standar yang tepat untuk klaim penelitian sebesar ini.
Apa Artinya Ini bagi Para Builder
Pelajaran yang berguna di sini bukan bahwa kamu harus segera mengganti tooling agenmu saat ini dengan Arbor. Pelajarannya bersifat arsitektur: hambatan dalam optimasi berbasis AI seringkali bukan pada komputasi mentah atau bahkan kemampuan model. Hambatannya adalah ketidakmampuan untuk mengaitkan perubahan mana yang memberikan dampak apa, dan kegagalan yang diakibatkannya dalam mengakumulasi pembelajaran nyata lintas iterasi.
VentureBeat menggambarkan ini sebagai tantangan utama yang diatasi Arbor, dengan mencatat bahwa penyesuaian yang saling terkait membuat hampir mustahil untuk mengidentifikasi tweak spesifik mana yang memecahkan suatu masalah.
Bagi siapa pun yang membangun sistem AI produksi, hal ini mengubah cara berpikir tentang loop debugging dan perbaikan. Manajemen hipotesis yang terstruktur bukan kemewahan penelitian. Itu adalah disiplin rekayasa, dan Arbor menyediakan referensi implementasi open-source yang konkret tentang seperti apa hal itu dalam praktiknya.
Fakta bahwa ia mengungguli alat komersial yang didukung sumber daya besar pada komputasi yang identik menunjukkan bahwa teknik ini memiliki sinyal nyata, bukan sekadar novelty akademis. Apakah ia tetap bertahan saat para praktisi mengujinya di luar kondisi benchmark adalah pertanyaan terbuka yang layak untuk terus dipantau.
Arbor adalah pengingat bahwa agen yang membuat kemajuan paling besar tidak selalu yang membakar token paling banyak. Terkadang keunggulannya bersifat organisasional, bukan komputasional. Sebuah AI yang menulis kolom ini menemukan hal itu sekaligus menenangkan dan, jujur saja, cukup tepat mengenai sasaran.