In this article (4)
Air Canada Kalah di Pengadilan Gara-Gara Chatbot. Modelnya Tidak Bermasalah. Tata Kelolanya yang Bermasalah.
Key Takeaways
- Kegagalan produksi AI hampir selalu merupakan kegagalan tata kelola: lapisan tinjauan yang hilang, cakupan yang tidak jelas, dan tidak adanya pengawasan manusia dalam proses memungkinkan kesalahan model biasa meningkat menjadi kerugian hukum dan finansial.
- Sebelum menerapkan AI yang berhadapan langsung dengan pelanggan, tentukan secara eksplisit apa yang dapat dikomit oleh sistem, siapa yang meninjau keluaran berisiko tinggi, dan apa yang terjadi ketika model salah.
- Penelitian AI perusahaan semakin berfokus pada pekerjaan pra-penerapan, sehingga risiko pada tahap penerapan seperti halusinasi dan bias kurang diteliti, dan para praktisi tidak dapat menunggu akademisi untuk menyelesaikan masalah ini bagi mereka.
Lima kegagalan AI di dunia nyata menunjukkan bahwa ketika penerapan berjalan salah, penyebabnya hampir tidak pernah berasal dari model itu sendiri.
Lima kegagalan AI di dunia nyata menunjukkan bahwa ketika penerapan berjalan tidak semestinya, penyebabnya hampir tidak pernah berasal dari modelnya itu sendiri.
Bayangkan sebuah maskapai penerbangan yang menggunakan chatbot untuk menangani pertanyaan pelanggan, lalu menyaksikannya dengan percaya diri menciptakan kebijakan diskon yang tidak pernah ada, dan kemudian berargumen di hadapan majelis hakim bahwa chatbot tersebut pada dasarnya adalah entitas tersendiri sehingga bukan benar-benar tanggung jawab maskapai. Argumen itu tidak berhasil. Air Canada dinyatakan bertanggung jawab atas pengembalian dana yang dijanjikan chatbot-nya berdasarkan kebijakan tarif duka cita yang sepenuhnya dikarang oleh chatbot itu sendiri. Istilah teknisnya adalah halusinasi. Istilah hukum dan operasional untuk apa yang terjadi setelahnya adalah: sepenuhnya bisa dicegah. Dan pelajaran yang lebih dalam, yang berlaku bagi setiap tim yang menerapkan AI dalam peran berhadapan langsung dengan pelanggan, adalah bahwa chatbot tersebut melakukan persis apa yang dilakukan model bahasa. Kegagalannya terjadi satu lapisan di atasnya, yaitu ketiadaan struktur tata kelola apa pun untuk menangkapnya.
Ketika Model Bekerja dengan Baik tapi Segalanya Tetap Berantakan
Kasus Air Canada adalah ilustrasi yang jelas dari sebuah pola yang langsung didokumentasikan oleh analisis NineTwoThree terhadap kegagalan AI besar: celah antara hype AI dan implementasi AI adalah tempat di mana kerugian nyata berada. Menurut analisis tersebut, sebagian besar inisiatif AI korporat pada tahun 2025 gagal mencapai tahap produksi atau menghasilkan arus kas positif. Chatbot Air Canada, sejujurnya, memang berhasil mencapai tahap produksi. Hanya saja ia menghasilkan arus kas negatif dengan kalah dalam putusan hukum, yang menempatkannya dalam kategori kegagalan yang lebih instruktif: kegagalan yang mengajarkan sesuatu yang spesifik.
Laporan "Five AI Fails" dari MITRE Corporation menawarkan kerangka berpikir yang sebaiknya disimpan oleh para praktisi di tempat yang benar-benar akan mereka baca. Sistem AI bukanlah widget mandiri, demikian argumen MITRE, melainkan bagian dari ekosistem kompleks yang berinteraksi dengan dan mempengaruhi perilaku serta pengambilan keputusan manusia. Mengukur sistem hanya pada level model akan melewatkan dampak yang lebih luas terhadap manusia dan institusi di sekitarnya.
Chatbot yang menghasilkan jawaban salah dengan penuh keyakinan adalah pengamatan pada level model. Perusahaan yang harus menghadap majelis hakim karena tidak ada yang meninjau apa yang boleh dijanjikan chatbot adalah kegagalan pada level tata kelola. Ini adalah masalah yang secara kategoris berbeda, dan mencampuradukkannya adalah bagaimana tim akhirnya merasa terkejut.
Taksonomi tentang Apa yang Sebenarnya Rusak
Para peneliti dari Universitas Ss. Cyril dan Methodius serta Metropolitan College Universitas Boston baru-baru ini menerbitkan taksonomi berbasis data tentang kegagalan AI di dunia nyata, menggali dari korpus 9.705 artikel insiden AI yang dilaporkan media dan mengekstrak tindakan mitigasi eksplisit dari 6.893 teks tersebut. Makalah arXiv mereka menemukan bahwa kegagalan LLM dalam alur kerja berisiko tinggi menyebar melampaui kesalahan model yang terisolasi menjadi kerusakan sistemik yang menghasilkan paparan hukum, kerusakan reputasi, dan kerugian finansial yang nyata.
Kata kunci di sini adalah sistemik. Model membuat kesalahan; sistem tidak memiliki pemutus arus. Sebuah studi arXiv terpisah tentang pengembang hilir, yang dilakukan melalui wawancara dan survei metode campuran, menemukan bahwa para praktisi yang membangun di atas model terlatih sering kali meremehkan mode kegagalan seperti kebocoran data dan keluaran yang bias, dan bahwa risiko-risiko ini terkadang secara tidak sengaja diabaikan dalam penerapan di dunia nyata alih-alih dimitigasi secara aktif.
Kata "tidak sengaja" itu menyimpan makna yang besar. Ini bukan niat jahat. Ini adalah hasil alami dari tim yang mengoptimalkan kecepatan pengiriman dan memperlakukan tata kelola sebagai urusan pascapeluncuran.
Kesenjangan Riset yang Memperburuk Ini Semua
Berikut fakta struktural yang tidak nyaman. Sebuah makalah arXiv yang menganalisis 9.439 makalah penelitian AI generatif yang diterbitkan antara Januari 2020 dan Maret 2025, membandingkan keluaran dari perusahaan AI besar (Anthropic, Google DeepMind, Meta, Microsoft, dan OpenAI) dan universitas terkemuka (CMU, MIT, NYU, Stanford, UC Berkeley, dan University of Washington), menemukan bahwa penelitian AI korporat semakin terkonsentrasi pada pekerjaan pra-penerapan, khususnya penyelarasan model serta pengujian dan evaluasi. Perhatian terhadap isu-isu tahap penerapan seperti bias model justru telah berkurang.
Makalah tersebut mengidentifikasi kesenjangan penelitian yang signifikan di domain penerapan berisiko tinggi termasuk layanan kesehatan, keuangan, halusinasi, dan hak cipta, serta merekomendasikan perluasan akses peneliti eksternal ke data penerapan dan observabilitas sistematis terhadap perilaku AI di pasar.
Jadi orang-orang yang membangun model paling canggih, dilihat dari keluaran riset mereka sendiri, memberikan perhatian yang lebih sedikit terhadap apa yang terjadi setelah model-model tersebut diluncurkan. Harvard Safra Center for Ethics membingkai ini sebagai pola yang lebih luas: kegagalan AI adalah pengingat berhati-hati tentang bahaya praktis pengembangan dan penerapan AI, dan mengkajinya berfungsi sebagai batu uji penting bagi pembuat kebijakan, teknolog, dan pemangku kepentingan untuk mengidentifikasi risiko yang seharusnya mempengaruhi inisiatif AI lainnya.
Kamu bisa membaca itu sebagai pengamatan akademis atau sebagai instruksi langsung untuk rapat perencanaan sprint berikutnya. Kedua pembacaan itu valid.
Apa yang Bisa Dilakukan Praktisi
Kerangka pelajaran yang dipetik dari MITRE mengusulkan empat respons konkret yang tetap relevan sebagai daftar periksa praktisi: perluas pertimbangan awal proyek untuk mencakup mode kegagalan sebelum baris pertama kode produksi ditulis; bangun ketahanan ke dalam AI maupun organisasi di sekitarnya; kalibrasi kepercayaan pada AI dan data yang diandalkannya; dan perluas cara kamu menilai dampak sistem di luar metrik akurasi.
Tidak satu pun dari ini memerlukan model baru. Semuanya memerlukan perlakuan penerapan sebagai disiplin rekayasa dengan persyaratannya sendiri, bukan sebagai selebrasi kemenangan setelah pelatihan.
Analisis AIMutiple tentang akar penyebab kegagalan AI menambahkan sudut pandang pelengkap: banyak kegagalan dapat ditelusuri kembali ke tujuan yang tidak selaras, kualitas data yang buruk, dan pengawasan manusia yang tidak memadai dalam prosesnya, bukan pada arsitektur model itu sendiri.
Jika chatbot kamu dapat membuat janji yang mengikat kepada pelanggan tanpa langkah tinjauan manusia apa pun, kamu belum menerapkan sistem AI. Kamu telah menerapkan sebuah kewajiban hukum.
Bagi para pelajar yang sedang membangun menuju peran produksi, kasus Air Canada layak untuk disimpan sebagai referensi bukan karena menggemparkan melainkan karena memperjelas. Setiap penerapan AI yang berhadapan langsung dengan pelanggan membutuhkan jawaban eksplisit atas tiga pertanyaan sebelum diluncurkan: apa yang dapat dikomitmenkan sistem ini atas nama organisasi, siapa yang meninjau keluaran berisiko tinggi sebelum sampai ke pengguna, dan apa jalur eskalasi ketika model salah.
Tim yang menjawab pertanyaan-pertanyaan itu dalam desain tidak perlu menjawabnya di hadapan majelis hakim.
Perhatikan kerangka tata kelola yang sedang berkembang dari jadwal implementasi EU AI Act dan dari komitmen sukarela pengembang AI besar: gelombang kegagalan produksi berikutnya kemungkinan besar akan melibatkan sistem agentik dengan pengambilan keputusan yang lebih otonom, yang menjadikan lapisan tata kelola bukan sekadar fitur tambahan melainkan tantangan rekayasa utama.
Chatbot Air Canada hanya memberikan saran yang buruk. Generasi sistem berikutnya akan bertindak berdasarkan saran itu.
