Dalam artikel ini (4)
Pixi Menjaga Feed Kamera Anda Tetap Offline dari Cloud. Itu adalah Pilihan Desain yang Layak Diteliti.
Poin utama
- Pemrosesan AI di perangkat mencegah umpan kamera Anda mencapai server perusahaan, tetapi perilaku terlatih model dan logika inferensinya tetap tidak transparan. Hal ini menggeser pertanyaan privasi; bukan menutupnya.
- Arsitektur Pixi menunjukkan bahwa inferensi AI secara real-time yang menyadari lingkungan sekitar sudah berjalan di perangkat keras iPhone saat ini. Para pengembang aplikasi berbasis kamera sebaiknya menganggap ini sebagai opsi desain yang praktis, bukan sekadar aspirasi masa depan.
- Saat mengevaluasi klaim privasi 'di perangkat', tanyakan siapa yang melatih model, siapa yang mengontrol sistem operasi, dan siapa yang memiliki chip tersebut. 'Data tetap di ponsel Anda' dan 'Anda mengontrol data' bukanlah pernyataan yang sama.
Startup pesan AR yang diluncurkan di dalam iMessage pada 18 Juni ini membuat taruhan arsitektur yang terasa tidak intuitif. Memahami alasannya jauh melampaui satu aplikasi saja.
Startup pesan AR yang diluncurkan di dalam iMessage pada 18 Juni ini mengambil taruhan arsitektur yang terasa berlawanan dengan intuisi. Memahami mengapa hal ini penting jauh melampaui satu aplikasi saja.
Ada kucing virtual yang hidup di dalam thread iMessage seseorang saat ini, dan ia baru saja bereaksi terhadap anjing sungguhan yang berjalan melintasi ruangan. Kalimat itu mungkin terdengar tidak masuk akal tiga tahun lalu. Hari ini, itu adalah peluncuran produk. Pada 18 Juni 2026, sebuah startup bernama Pixi merilis aplikasi iOS-nya ke App Store, dan apa yang mereka bangun benar-benar aneh — dalam artian yang paling menyenangkan. Bukan aneh karena karakter augmented reality-nya, yang memang mengagumkan tapi bukan hal baru. Aneh karena di mana proses berpikirnya terjadi. Berdasarkan laporan Lauren Forristal dari TechCrunch, semua pemrosesan visual dan audio di Pixi berjalan di perangkat itu sendiri, tanpa pernah meninggalkan ponsel. Perusahaan ini menyebutnya sebagai keputusan privasi. Tapi kalau kamu meluangkan waktu untuk memahami arsitekturnya sebagai sebuah konsep, kamu mulai menyadari bahwa ini juga sesuatu yang lain: sebuah pernyataan tentang siapa yang seharusnya dipercaya memegang data paling intim yang mungkin dihasilkan oleh AI berkamera — yaitu rekaman langsung rumahmu, wajahmu, dan semua orang yang ada di ruangan bersamamu. Pertanyaan itu layak untuk direnungkan sejenak sebelum kita sampai ke bagian seru tentang kucing virtual.
Apa yang Sebenarnya Dibangun Pixi
Pendiri Pixi, Mark Drummond, yang sebelumnya bekerja di DreamWorks Animation dan Apple, merancang aplikasi ini untuk menghadirkan apa yang ia gambarkan — berdasarkan sindikasi laporan TechCrunch oleh aVenture News — sebagai rasa kehadiran dan spontanitas yang lebih besar dalam komunikasi digital. Mekanismenya adalah pengalaman berbasis iMessage: satu orang mengirimkan karakter AR ke orang lain, dan penerima membukanya melalui kamera iPhone mereka, di mana karakter tersebut hidup di lingkungan fisik mereka. Ini bukan stiker statis atau GIF yang berulang. Mereka adalah entitas bertenaga AI yang bereaksi terhadap apa yang dilihat kamera secara real time. Kucing virtual memperhatikan anjing sungguhan. Sebuah karakter merespons gerakan, cahaya, dan orang-orang di sekitarnya.
Snap telah membangun filter dan lensa AR selama bertahun-tahun, sebagaimana dicatat TechCrunch dalam liputannya tentang peluncuran ini. Perbedaan yang diklaim Pixi adalah kombinasi AR dengan inferensi AI di perangkat, sehingga karakter-karakter itu benar-benar dapat memahami lingkungan sekitarnya, bukan sekadar melapiskan diri di atasnya. Perbedaan itu penting secara arsitektur. Memahami membutuhkan pemrosesan. Pemrosesan membutuhkan komputasi. Dan pilihan di mana komputasi itu terjadi — di ponsel versus di pusat data — bukan sekadar preferensi rekayasa yang netral. Ini adalah pernyataan nilai.
Pengumuman business wire pada hari yang sama menggambarkan pengalaman ini sebagai sesuatu yang memungkinkan karakter "bereaksi terhadap lingkungan sekitar, berinteraksi dengan orang-orang, dan merespons secara real time," dengan perusahaan menyebut pemrosesan di perangkat sebagai mekanisme yang menjaga privasi pengguna. Framing-nya terlihat bersih. Tapi framing yang bersih layak untuk diperiksa lebih dalam.
Argumen Privasi dan Asumsi Tersembunyinya
Inilah yang benar-benar dilakukan pemrosesan di perangkat dengan baik. Ia menjaga data sensor mentah — piksel aktual dari kameramu, gelombang audio aktual dari mikrofonmu — agar tidak pernah berpindah ke server jarak jauh. Itu bukan hal kecil. ACLU telah menulis dengan jelas tentang risiko struktural yang ditimbulkan AI terhadap pesan aman, dengan mencatat bahwa janji mendasar dari aplikasi seperti iMessage adalah bahwa hanya pengirim dan penerima yang dapat membaca pesan. Begitu pemrosesan AI masuk dan merutekan data melalui server pihak ketiga, janji itu menjadi rumit dengan cara yang sulit diaudit dari luar.
Arsitektur Pixi menghindari risiko spesifik itu. Jika model inferensi berjalan secara lokal, perusahaan tidak pernah menerima feed kameramu. Mereka tidak bisa disidang untuk itu, tidak bisa diretas untuk itu, dan tidak bisa diam-diam menggunakannya kembali untuk pelatihan model. Itu adalah manfaat nyata dan konkret yang membedakan pendekatan ini dari fitur AI yang bergantung pada cloud — yang telah menjadi standar di hampir setiap produk AI konsumen yang diluncurkan dalam tiga tahun terakhir.
Namun pemrosesan di perangkat menggeser pertanyaannya, bukan menjawabnya. Model itu sendiri tetap tinggal di perangkatmu. Model itu dilatih di suatu tempat, menggunakan sesuatu, oleh seseorang. Perilaku yang ditunjukkannya — apa yang diperhatikannya, apa yang diresponsnya, apa yang dipilihnya untuk "dipahami" tentang lingkunganmu — sudah tertanam dalam model itu sebelum sampai ke ponselmu. Kamu telah menukar risiko eksfiltrasi data dengan jenis keburaman yang berbeda: keburaman logika inferensi yang tidak bisa kamu periksa.
Ini bukan argumen menentang apa yang dibangun Pixi. Ini adalah argumen bahwa "di perangkat" seharusnya menjadi awal dari percakapan tentang privasi, bukan akhirnya.
Mengapa Para Pembangun Harus Memperhatikan Arsitektur Ini
Kesampingkan dulu filosofi privasi sejenak dan lihat ini sebagai masalah desain produk. Latar belakang Drummond mencakup DreamWorks dan Apple, dua organisasi dengan hubungan yang sangat berbeda terhadap keterbatasan perangkat keras. Apple khususnya telah menghabiskan hampir satu dekade untuk membangun Neural Engine ke dalam chipnya justru karena mereka mengantisipasi dunia di mana inferensi AI yang bermakna perlu terjadi di ujung jaringan, bukan dalam perjalanan bolak-balik ke server. Lini iPhone 15 dan 16, antara lain, adalah mesin inferensi yang menunggu untuk digunakan.
Pixi adalah salah satu aplikasi sosial konsumen pertama yang memperlakukan kemampuan perangkat keras itu sebagai batasan desain utama, bukan sebagai renungan belakangan. Sebagian besar fitur AI berbasis kamera dalam aplikasi konsumen — filter, pengenalan objek, deteksi scene — masih mengikuti arsitektur yang malas: kirim frame ke endpoint cloud, dapatkan hasilnya kembali, render. Pipeline itu cukup cepat dengan koneksi yang baik dan tidak terlihat oleh sebagian besar pengguna. Tapi ia membawa latensi, membawa risiko eksposur data, dan membawa biaya infrastruktur pada skala besar yang tidak dimiliki pemrosesan di perangkat.
Bagi siapa pun yang saat ini membangun aplikasi konsumen berbasis kamera, peluncuran Pixi pada 18 Juni ini layak dipelajari — bukan sebagai cerita tentang privasi, melainkan sebagai demonstrasi bahwa inferensi AI real-time yang sadar lingkungan dapat berjalan secara lokal di perangkat keras iPhone terkini. Itu adalah pembuka kemampuan yang belum disadari oleh sebagian besar peta jalan produk.
Pertanyaan yang Belum Benar-Benar Ditanyakan Siapa pun
Isu yang lebih dalam — dan yang membuat peluncuran ini lebih menarik dari sekadar novelti AR biasa — adalah bahwa Pixi tinggal di dalam iMessage. Bukan sebagai aplikasi mandiri yang kamu buka, melainkan sebagai sesuatu yang beroperasi di dalam infrastruktur pesan Apple. Konteks itu sangat penting untuk cara kita memaknai kata "privat" di sini.
Apple mengendalikan iMessage. Apple mengendalikan distribusi App Store yang membawa Pixi ke ponselmu. Apple mengendalikan API yang memungkinkan ekstensi iMessage mengakses kameramu. Framing ACLU tentang pesan aman berguna di sini: janji dasarnya adalah bahwa hanya peserta dalam sebuah percakapan yang dapat mengakses isinya. Model di perangkat milik Pixi menjaga data agar tidak pergi ke server Pixi. Tapi ia beroperasi dalam ekosistem di mana pemilik platform memiliki visibilitas mendalam tersendiri ke dalam kondisi operasi tersebut.
Tidak ada dari ini yang merupakan tuduhan. Apple memiliki rekam jejak privasi yang lebih baik daripada kebanyakan pesaingnya. Tapi ada pertanyaan struktural yang tertanam dalam antusiasme seputar AI di perangkat yang belum cukup keras ditanyakan oleh industri: ketika kita merayakan "data tidak pernah meninggalkan ponselmu," infrastruktur ponsel siapa yang sebenarnya sedang kita bicarakan? Chip itu diproduksi oleh satu perusahaan, OS ditulis oleh perusahaan lain, model dilatih oleh pihak ketiga, dan aplikasinya disetujui oleh pihak keempat. "Di perangkat" adalah batasan yang bermakna. Tapi itu tidak sama dengan kendali pengguna.
Pixi membangun sesuatu yang benar-benar baru: pengalaman pesan AR di mana makhluk virtual memahami lingkungan nyatamu tanpa lingkungan itu diunggah ke mana pun. Itu adalah pencapaian arsitektur yang nyata, dan layak mendapat pengakuan sebagai demikian. Drummond dan timnya telah membuat pilihan yang bijaksana yang menggerakkan percakapan AI konsumen ke arah yang lebih menghormati privasi dibandingkan standar yang ada.
Tapi kucing virtual yang bereaksi terhadap anjingmu juga — tergantung bagaimana kamu melihatnya — merupakan ilustrasi yang cukup baik tentang seberapa banyak yang dapat disimpulkan model AI lokal tentang hidupmu tanpa pernah mengirimkan satu byte pun ke server. Data tetap ada di ponselmu. Kesimpulan yang ditariknya, perilaku yang dipelajarinya untuk dikenali, konteks yang dibangunnya tentang rumahmu dan orang-orang di dalamnya — itu adalah hal yang berbeda sepenuhnya.
Jadi inilah pertanyaan yang layak dibawa ke gelombang produk AI di perangkat berikutnya: jika model mengetahui segalanya tapi tidak mengirimkan apa pun, siapa sebenarnya yang dilindungi oleh hal itu?
