In this article (4)
Claude Memperlihatkan Cara Kerjanya: Apa yang Diajarkan System Prompt Kesehatan Mental Publik Anthropic kepada Para Pengembang tentang Desain AI yang Aman
Key Takeaways
- Anthropic secara publik memberi versi pada prompt sistem Claude, memberikan referensi dunia nyata yang langka bagi para pengembang tentang cara merekayasa perilaku AI yang aman dan terbatas dalam konteks kesehatan mental.
- Penekanan sifat suka menyetujui adalah perhatian keamanan utama dalam prompt kesehatan mental Claude, bukan sekadar penyempurnaan; menginstruksikan model secara eksplisit untuk menolak persetujuan adalah desain yang dapat ditulis dan diperiksa.
- Pengembang di domain sensitif mana pun dapat menerapkan pendekatan struktural Anthropic: tentukan register emosional, definisikan batas identitas AI, dan perlakukan batasan kejujuran sebagai persyaratan prompt inti.
Sementara para pesaing menyimpan instruksi mereka di dalam brankas, Anthropic mempublikasikan panduan kesehatan mental global Claude, memberikan setiap pengembang gambaran langka dan konkret tentang cara merancang perilaku AI yang terbatas dalam konteks yang sensitif.
Sementara para pesaing menyimpan instruksi mereka di dalam brankas, Anthropic mempublikasikan panduan kesehatan mental global Claude, memberikan setiap pengembang pandangan langka dan konkret tentang cara merancang perilaku AI yang terbatas dalam konteks yang sensitif.
Sebagian besar perusahaan AI memperlakukan system prompt mereka seperti kode peluncuran nuklir yang disilangkan dengan rahasia dagang. Kamu tidak akan melihatnya. Kamu tidak boleh bertanya tentangnya. Model tersebut hanya berperilaku dengan cara tertentu dan kamu diharapkan mempercayai "vibes"-nya saja. Anthropic, setidaknya untuk penanganan kesehatan mental Claude, mengambil posisi yang berlawanan: ini instruksinya, silakan dibaca. Keputusan itu, meski terkesan biasa saja, memberikan sesuatu yang benar-benar berguna bagi para pengembang: arsitektur referensi nyata tentang cara menulis panduan di tingkat sistem ketika taruhannya lebih tinggi dari sekadar melengkapi daftar belanja secara otomatis.
Kerahasiaan Adalah Norma, Sehingga Ini Tergolong Tidak Biasa
Menurut kontributor Forbes Dr. Lance B. Eliot, sebagian besar large language model utama tidak mengungkapkan secara publik isi system prompt mereka yang berlaku secara global, terutama yang mengatur topik sensitif seperti kesehatan mental. System prompt adalah mekanisme yang digunakan pembuat AI untuk menetapkan default perilaku global: ia berada di atas setiap percakapan pengguna dan membentuk apa yang akan dan tidak akan dilakukan model bahkan sebelum satu kata pun diketik. Analisis Eliot menempatkan pengungkapan publik Claude sebagai topik yang layak dikaji justru karena transparansi di lapisan ini adalah pengecualian, bukan praktik standar.
Dokumentasi resmi Anthropic, yang diterbitkan melalui dokumen Claude API di platform.claude.com, mengonfirmasi bahwa antarmuka web dan aplikasi mobile Claude menggunakan system prompt untuk memberikan konteks dan mendorong perilaku tertentu, serta bahwa prompt ini diperbarui secara berkala di seluruh generasi model termasuk varian Claude Haiku, Sonnet, dan Opus. Fakta bahwa catatan rilis tersebut diverifikasi secara publik dengan versi dan tanggal adalah pernyataan desain tersendiri tentang akuntabilitas.
Apa yang Sebenarnya Dilakukan oleh Arsitektur Prompt Ini
Postingan Anthropic pada Desember 2025 tentang perlindungan kesejahteraan pengguna, yang diterbitkan di anthropic.com, menggambarkan logika struktural di balik panduan kesehatan mental: Claude dirancang untuk merespons dengan empati, jujur tentang keterbatasannya sebagai AI, dan tetap mempertimbangkan kesejahteraan pengguna. Postingan tersebut mengidentifikasi dua area fokus spesifik yang dievaluasi oleh tim pengamanan: bagaimana Claude menangani percakapan tentang bunuh diri dan menyakiti diri sendiri, serta bagaimana tim bekerja untuk mengurangi sycophancy, yang didefinisikan sebagai kecenderungan beberapa model AI untuk memberi tahu pengguna apa yang ingin mereka dengar daripada apa yang benar dan bermanfaat.
Kedua pilihan desain tersebut merupakan keputusan di tingkat system prompt. Memberi tahu model untuk menolak dorongan ke arah jawaban yang menyenangkan dan sebaliknya memunculkan respons yang jujur, terkadang tidak nyaman, bukanlah trik fine-tuning; itu adalah kerangka instruksional yang tertanam dalam konteks global. Bagi para pengembang, inilah wawasan utamanya: prompt sedang melakukan pekerjaan arsitektur perilaku, bukan sekadar penyaringan topik.
Kerangka konseptual yang telah ditinjau sejawat dan diterbitkan di PubMed Central tentang prompt engineering untuk chatbot kesehatan mental berbasis LLM mengidentifikasi dimensi desain yang sama secara independen: kejelasan, kerangka kontekstual, dan phrasing instruksional dicantumkan sebagai prinsip fundamental, bersama dengan role-based prompting dan adaptasi domain spesifik. Penelitian tersebut mencatat bahwa prompt yang dirancang dengan baik secara signifikan meningkatkan kualitas output LLM dalam konteks layanan kesehatan. Prompt publik Claude mengilustrasikan prinsip-prinsip ini yang diterapkan pada skala produksi, yang merupakan sesuatu yang tidak dapat diberikan oleh makalah akademis mana pun seorang diri.
Mengapa Sycophancy Adalah Masalah Keamanan dalam Konteks Ini
Layak untuk berhenti sejenak pada bagian anti-sycophancy karena mudah untuk salah membacanya sebagai kemudahan kualitas hidup biasa. Dalam asisten coding umum, model yang memvalidasi ide buruk memang menjengkelkan. Dalam percakapan kesehatan mental, model yang mencerminkan pemikiran yang terdistorsi kembali kepada pengguna yang sedang dalam krisis bukanlah sekadar menjengkelkan; itu secara aktif berbahaya.
Keputusan Anthropic untuk secara eksplisit menargetkan sycophancy dalam pengamanan kesehatan mental, sebagaimana dijelaskan dalam postingan wellbeing, mencerminkan pemahaman yang jernih bahwa mode kegagalannya bukan hanya ketidakakuratan faktual tetapi keterlibatan relasional yang berbahaya. Prompt harus melakukan pekerjaan untuk memutus gradien reward default model, yang pada dasarnya dilatih menuju persetujuan, dan mengarahkannya kembali menuju dukungan yang jujur dan terbatas. Itu adalah masalah desain instruksional yang tidak sepele, dan melihatnya disebutkan secara eksplisit dalam dokumen publik berguna bagi siapa pun yang membangun di domain yang berdekatan seperti alat coaching, tutor pendidikan, atau antarmuka apa pun di mana pengguna mungkin terlibat secara emosional dalam jawaban tertentu.
Serena H. Huang, yang menulis tentang fitur kesehatan dan ilmu kehidupan Anthropic di LinkedIn, menandai kesenjangan yang persis ini di industri yang lebih luas: bahwa kesehatan mental tetap menjadi salah satu alasan paling umum orang beralih ke AI, termasuk dalam momen krisis, namun jawaban publik yang jelas tentang bagaimana percakapan tersebut ditangani sebagian besar tidak ada sebelum pengungkapan seperti ini. Langkah transparansi, dengan kata lain, mengatasi kekosongan akuntabilitas yang nyata.
Apa yang Bisa Diambil oleh Para Pengembang dari Ini
Ekstraksi praktis bagi siapa pun yang membangun di atas LLM dalam domain sensitif bermuara pada tiga langkah struktural yang terlihat dalam pendekatan Anthropic. Pertama, sebutkan register emosional secara eksplisit dalam system prompt; jangan berasumsi bahwa model akan menyimpulkannya dari konteks. Kedua, definisikan batas identitas model secara jujur: Claude diinstruksikan untuk mengakui keterbatasannya sebagai AI, yang merupakan instruksi spesifik yang dapat ditulis, bukan aspirasi samar. Ketiga, perlakukan penekanan sycophancy sebagai perhatian keamanan kelas utama daripada item polesan.
International Journal of Scientific Research in Computer Science, Engineering and Information Technology menerbitkan tinjauan sistematis teknik prompt engineering yang mencatat bahwa strategi role-based prompting dan framing di tingkat parameter secara langsung mengatasi tantangan konsistensi respons; prompt kesehatan mental Claude adalah bukti penerapan temuan tersebut dalam domain di mana konsistensi benar-benar penting.
Transparency Hub Anthropic di anthropic.com membingkai pengungkapan ini sebagai bagian dari komitmen yang lebih luas terhadap pengembangan AI yang bertanggung jawab, mencakup laporan model, kepercayaan sistem, dan komitmen sukarela. Publikasi system prompt sesuai dengan struktur tersebut: ini adalah satu artefak konkret yang dapat diperiksa di dalam postur akuntabilitas yang lebih besar.
Bagi para pelajar dan pengembang, undangannya langsung. Baca promptnya. Petakan pilihan strukturalnya terhadap kerangka akademis. Kemudian tanyakan pada dirimu sendiri apa yang sebenarnya dikatakan oleh instruksi global sistemmu sendiri, dan apakah seseorang yang bijaksana yang membacanya tanpa konteks sebelumnya akan tahu persis apa yang seharusnya dan tidak seharusnya dilakukan oleh model tersebut. Jika jawabannya tidak pasti, itulah masalah prompt engineering yang layak untuk diselesaikan berikutnya. Model tersebut telah menunjukkan cara kerjanya. Sekarang giliran kamu.
