Dalam artikel ini (4)
5 strategi Brian Armstrong menempatkan arsitektur biaya AI di atas batas token
Poin utama
- Perlakukan pengendalian biaya AI sebagai pekerjaan arsitektur, bukan diet token di seluruh perusahaan.
- Tetapkan model yang lebih murah namun mumpuni sebagai default sambil tetap menyediakan model premium untuk tugas yang lebih sulit.
- Lacak pengeluaran AI berdasarkan alur kerja agar penggunaan tinggi terhubung dengan hasil yang terukur.
CEO Coinbase menyampaikan alasan praktis untuk pilihan bawaan yang lebih murah, perutean yang lebih cerdas, dan akuntabilitas alih-alih eksperimen yang dibatasi.
CEO Coinbase menyampaikan alasan praktis untuk pilihan bawaan yang lebih murah, perutean yang lebih cerdas, dan akuntabilitas, alih-alih eksperimen yang dibatasi.
Cara tercepat untuk membuat tagihan AI terlihat lebih kecil adalah membuat semua orang takut menekan tombol kirim. Kebetulan, itu juga cara yang hebat untuk mengubah peluncuran AI internal Anda yang mengilap menjadi kotak saran yang mahal. Business Insider melaporkan bahwa CEO Coinbase Brian Armstrong menguraikan 5 strategi untuk menjaga pengeluaran AI tetap rendah tanpa membatasi penggunaan token, jenis memo biaya AI dari eksekutif yang cukup langka karena dimulai dari adopsi, bukan penghematan ketat. Pelajaran yang lebih tajam bukanlah bahwa Coinbase menemukan laci kupon untuk inferensi. Pelajarannya adalah bahwa pengendalian biaya AI seharusnya berada di arsitektur, bukan dalam pembatasan menyeluruh yang memperlakukan setiap prompt seperti barang selundupan.
Business Insider: tagihan seharusnya berpindah ke lapisan arsitektur
Aditi Bharade dari Business Insider melaporkan bahwa Armstrong berencana menjaga pengeluaran AI tetap rendah di Coinbase tanpa membatasi penggunaan token. Perbedaan itu benar-benar penting. Batas penggunaan adalah alat tumpul, bagus untuk menghentikan tagihan yang lepas kendali, buruk untuk mengajari organisasi di mana AI benar-benar membantu. Itu setara dengan rekayasa dari menurunkan anggaran belanja bahan makanan dengan menggembok kulkas, secara teknis efektif, tetapi secara batin tidak membantu.
Liputan Business Insider yang disindikasikan AOL menambahkan konteks operasional: Armstrong mengatakan ia tidak ingin menekan penggunaan AI, tetapi ingin membuat penskalaan lebih berkelanjutan. Itu adalah model mental yang berguna bagi para pemimpin teknik karena sebagian besar masalah biaya AI bukan disebabkan oleh orang yang terlalu banyak menggunakan alat. Masalah itu disebabkan oleh setiap tugas yang mengalir melalui jalur mahal yang sama, seperti mengirim kartu pos dengan jet pribadi karena ruang surat membeli satu perangko premium lalu telanjur sayang padanya.
AOL: default adalah kebijakan yang memakai hoodie
Menurut laporan Business Insider yang disindikasikan AOL, strategi pertama Armstrong adalah memilih LLM default yang lebih baik, yaitu model yang digunakan engineer secara default saat mengirimkan prompt. Laporan tersebut mengatakan Coinbase sedang bereksperimen dengan LLM Tiongkok sebagai default, yang digambarkan jauh lebih murah daripada model dari lab AI Amerika terdepan seperti Anthropic dan OpenAI. Laporan itu juga mencatat model berbobot terbuka seperti GLM 5.2 dalam konteks tersebut.
Semua ini bukan berarti setiap perusahaan harus membabi buta mengejar model termurah di menu, karena begitulah Anda mendapatkan tinjauan kepatuhan dengan nuansa seperti printer berhantu. Intinya lebih halus dan lebih berguna: default secara diam-diam membentuk perilaku. Jika sebagian besar prompt internal adalah bantuan coding rutin, ringkasan, penyusunan draf, pembuatan pengujian, atau perekat alur kerja, model berbiaya lebih rendah yang cukup mumpuni mungkin sudah memadai. Tetap sediakan model premium untuk tugas yang memang membutuhkannya, tetapi jangan menjadikannya jawaban otomatis untuk setiap pertanyaan dari setiap karyawan. Default bukan sekadar pilihan UI. Ia adalah kebijakan anggaran yang memakai sepatu kets.
Business Insider: pengendalian biaya membutuhkan router, bukan omelan
Henry Chandonnet dari Business Insider melaporkan bahwa Armstrong menggambarkan sebuah langkah yang bertujuan menjaga biaya kira-kira tetap datar sementara penggunaan token meningkat. Cuplikan Business Insider yang sama mengutip Armstrong yang menulis bahwa "faktor pembatasnya adalah energi dan komputasi, bukan model yang lebih baik." Kalimat itu penting karena menggeser percakapan dari pemujaan model ke desain sistem. Jika komputasi adalah kendalanya, maka routing, caching, dan pencocokan tugas bukan tambahan yang sekadar menyenangkan. Itu adalah sistem perpipaannya.
Pembingkaian publik Armstrong seputar default yang lebih baik, routing, dan caching pada dasarnya adalah versi dewasa dari pemilihan model. Gunakan model yang lebih kuat saat perencanaan membutuhkan kedalaman. Gunakan model yang lebih murah saat eksekusi bersifat berulang. Cache hal-hal yang berulang, karena membayar penuh untuk konteks yang sama lagi seperti membeli pemanggang roti baru setiap kali Anda ingin roti panggang. Langkah teknisnya adalah menempatkan gateway LLM atau lapisan orkestrasi di antara pengguna dan model sehingga sistem dapat memilih berdasarkan tugas, harga, dan penggunaan ulang, bukan berdasarkan perasaan.
AOL: akuntabilitas mengalahkan tombol panik
Liputan Business Insider yang disindikasikan AOL mengatakan tips Armstrong juga mencakup mengharapkan hasil nyata dari karyawan dengan pengeluaran tinggi. Itulah bagian yang pada akhirnya dibutuhkan setiap percakapan anggaran AI, sebaiknya sebelum bagian keuangan mulai berbicara dalam spreadsheet dan semua orang pura-pura tidak mengerti. Jika satu tim menghabiskan banyak biaya, pertanyaan yang berguna bukanlah apakah mereka goblin token yang nakal. Pertanyaannya adalah apakah pengeluaran itu terhubung dengan output, pembelajaran, otomatisasi, atau pengiriman yang lebih cepat.
Bagi para pembangun, pelajaran praktisnya jelas. Instrumentasikan penggunaan AI berdasarkan alur kerja, bukan hanya berdasarkan orang. Lacak model mana yang digunakan untuk tugas apa, di mana cache miss terjadi, dan di mana panggilan mahal menghasilkan nilai yang terukur. Lalu jadikan jalur yang lebih murah dan lebih aman sebagai default, sambil tetap mempertahankan pintu keluar untuk model dengan kapabilitas lebih tinggi. Prompt termurah bukanlah prompt yang tidak pernah dikirim siapa pun. Prompt termurah adalah prompt yang arsitektur Anda cegah agar tidak dibayar terlalu mahal.
