Bagaimana model berparameter 70B bisa muat di ponsel?

Melalui kuantisasi agresif, yang mengurangi presisi numerik bobot model (misalnya dari 16-bit menjadi 4-bit), jejak memori dapat dikompresi secara drastis. Pemangkasan dan desain runtime yang efisien juga membantu. Ulasan arXiv tentang LLM pada perangkat mengidentifikasi ini sebagai teknik utama untuk memasang model besar ke perangkat keras dengan sumber daya terbatas.

Mengapa menjalankan LLM secara offline penting untuk privasi?

Ketika inferensi berjalan sepenuhnya di perangkat, tidak ada prompt atau respons yang dikirimkan ke server. Artinya tidak ada log API, tidak ada paparan data pihak ketiga, dan tidak ada persyaratan konektivitas, yang bermakna untuk kasus penggunaan profesional atau pribadi yang sensitif.

Perangkat keras apa yang diperlukan untuk menjalankan LiberaGPT?

Menurut pengumuman 5N6, aplikasi ini menargetkan perangkat Android kelas atas dengan RAM 24GB. Hal itu menempatkannya di segmen flagship premium daripada perangkat keras konsumen kelas menengah.

1 / 1

LiberaGPT AI pada Perangkat Inferensi Tepi AI Android Kuantisasi LLM 5N6 LTD AI Mengutamakan Privasi breaking-news

Hallucination Free Jun 21, 2026

In this article (4)

A 70-Billion Parameter LLM yang Berjalan Sepenuhnya di Ponsel Android Menantang Semua Asumsi Kita tentang Edge AI

Key Takeaways

LiberaGPT mengklaim menjalankan model berparameter 70B sepenuhnya secara offline di ponsel Android dengan RAM 24GB, menantang asumsi bahwa inferensi skala frontier memerlukan infrastruktur cloud.
Kuantisasi dan pemangkasan adalah teknik utama yang memungkinkan hal ini; memahaminya sangat penting bagi siapa pun yang merancang AI tepi atau aplikasi yang mengutamakan privasi.
Klaim ini berasal dari siaran pers dan menunggu verifikasi independen; perlakukan sebagai hipotesis yang layak diperhatikan, bukan tolok ukur yang sudah pasti.

Apa yang Sebenarny…Mengapa 70B di Pon…Argumen Arsitektur…Apa Artinya Ini Ji…

Hallucination Free · Jun 21, 2026

LiberaGPT oleh 5N6 LTD mengklaim dapat menjalankan model skala frontier sepenuhnya secara offline pada perangkat keras konsumen, dan implikasinya bagi penerapan AI yang mengutamakan privasi layak untuk dipertimbangkan dengan serius.

Pandangan umum di kalangan infrastruktur ML adalah bahwa model berparameter 70 miliar hanya bisa hidup di pusat data, bukan di kantong. Model-model ini membutuhkan rak GPU, interkoneksi memori bandwidth tinggi, dan anggaran daya yang akan membuat utilitas kota kecil pun malu. Maka ketika sebuah perusahaan perangkat lunak kecil asal Inggris bernama 5N6 LTD mengumumkan pada 19 Juni 2026 bahwa aplikasinya, LiberaGPT, dapat menjalankan model bahasa besar berparameter 70 miliar sepenuhnya secara offline di perangkat Android konsumen biasa tanpa modifikasi, reaksi wajar pertama adalah mengangkat alis. Tindak lanjut yang sama wajarnya adalah mencari tahu secara teknis apa sebenarnya arti klaim tersebut, dan apa artinya bagi siapa pun yang sedang membangun atau mempelajari AI di perangkat. Catatan editorial singkat sebelum kita mendalami ini: sumber utama di sini adalah siaran pers yang didistribusikan melalui Barchart, yang berada di bawah tingkatan jurnalisme yang diutamakan. Klaim teknis ini spesifik dan disebutkan namanya, tetapi verifikasi langsung yang independen belum dipublikasikan pada saat tulisan ini dibuat. Bacalah dengan mempertimbangkan hal tersebut.

Apa yang Sebenarnya Diklaim oleh 5N6

Berdasarkan pengumuman yang dimuat oleh Barchart, 5N6 menggambarkan LiberaGPT untuk Android sebagai tonggak pencapaian dalam AI mobile, khususnya dengan memungkinkan model bahasa besar berparameter 70 miliar dijalankan sepenuhnya secara offline di perangkat Android konsumen biasa tanpa modifikasi. Aplikasi ini digambarkan sebagai gratis dan berfokus pada privasi. Syarat perangkat keras utama yang disebutkan dalam pengumuman tersebut adalah RAM 24GB. Itu bukan spesifikasi yang kamu temukan di kebanyakan ponsel yang tersimpan di laci saat ini; spesifikasi itu menempatkan perangkat target dengan tegas di tingkat flagship premium. Meski begitu, ponsel dengan memori terpadu 24GB sudah ada dan dijual secara komersial, yang berarti klaim ini setidaknya masuk akal secara fisik, bukan sekadar angan-angan. Alasan mengapa jumlah parameter begitu penting sebagai tolok ukur adalah konteksnya. Hingga pengumuman ini, model dalam skala ini secara default dikaitkan dengan infrastruktur cloud. Menjalankannya secara lokal berarti tidak ada prompt yang meninggalkan perangkat, tidak ada panggilan API yang dicatat, dan tidak ada token berlangganan yang terpakai. Untuk kasus penggunaan yang sensitif terhadap privasi, arsitektur tersebut sungguh berbeda dari alternatif yang bergantung pada cloud.

Mengapa 70B di Ponsel Itu Sulit (dan Bagaimana Cara Melakukannya)

Untuk memahami mengapa ini patut diperhatikan, kamu perlu memahami panduan standar AI di perangkat. Tinjauan komprehensif tentang model bahasa di perangkat yang diterbitkan di arXiv (arxiv.org/html/2409.00088v1) merumuskan ketegangan intinya dengan jelas: menerapkan LLM yang mahal secara komputasi pada perangkat dengan sumber daya terbatas mengharuskan kita menavigasi pertukaran antara performa dan pemanfaatan sumber daya melalui teknik-teknik seperti kuantisasi, pemangkasan, dan destilasi pengetahuan.

Kuantisasi adalah kunci utama di sini. Model 70B dalam presisi floating point 16-bit penuh akan membutuhkan sekitar 140GB memori, yang jelas tidak mungkin terjadi di ponsel. Kuantisasi agresif, mendorong bobot turun ke representasi 4-bit atau bahkan 3-bit, dapat mengompresi jejak memori tersebut secara dramatis, berpotensi masuk ke dalam kisaran yang bisa ditangani perangkat 24GB. Sebagai perbandingan, kebijaksanaan komunitas konvensional di forum Hugging Face menyarankan bahwa untuk perangkat edge, ukuran model paling aman setelah kuantisasi adalah paling banyak 7B parameter, dengan 3B atau kurang yang lebih disukai untuk performa yang andal. Target 70B yang diklaim LiberaGPT adalah satu tingkat di atas batas dasar tersebut, itulah tepatnya mengapa klaim ini layak diperhatikan daripada diabaikan begitu saja. Jika rekayasanya terbukti kuat di bawah pengawasan ketat, sesuatu yang berarti telah terjadi dalam tumpukan kompresi dan runtime.

Argumen Arsitektur Privasi

Framing yang dipilih 5N6 bukan terutama tentang tolok ukur performa; ini tentang privasi. Siaran pers Barchart memposisikan LiberaGPT secara eksplisit sebagai aplikasi yang berfokus pada privasi, dan framing itu melakukan pekerjaan arsitektur yang nyata. Ketika inferensi berjalan sepenuhnya di perangkat, model ancaman berubah dengan cara yang bermakna. Tidak ada log server dari prompt-mu. Tidak ada API pihak ketiga yang bisa dimintai keterangan secara hukum, diretas, atau diam-diam dilatih ulang menggunakan kuerimu. Bagi jurnalis, tenaga kesehatan, profesional hukum, atau siapa pun yang menangani informasi sensitif di lingkungan dengan konektivitas rendah, itu adalah properti yang konkret dan tidak sepele.

XDA Developers telah meliput lanskap yang lebih luas dari menjalankan LLM penuh di ponsel tanpa koneksi internet, mencatat dalam sebuah artikel langsung bahwa pengalamannya bisa lebih berguna dari yang diperkirakan. Kesenjangan utilitas antara model di perangkat dan model cloud memang nyata, tetapi semakin menyempit, dan untuk kasus penggunaan offline atau privasi tinggi tertentu, pertukaran tersebut sudah menguntungkan bahkan sebelum kamu mencapai jumlah parameter skala frontier.

Apa Artinya Ini Jika Kamu Sedang Belajar tentang Edge AI

Komunitas riset ML telah mencurahkan energi yang cukup besar pada taruhan arsitektur yang berbeda: buat model lebih kecil dan lebih cerdas daripada memaksakan model besar ke perangkat kecil. Makalah MobileLLM dari Meta, yang dipresentasikan di ICML 2024 dan tersedia di arXiv, berfokus secara khusus pada pengoptimalan model bahasa berparameter di bawah satu miliar untuk kasus penggunaan di perangkat. Itu adalah arah penelitian yang sah dan didanai dengan baik. Pendekatan LiberaGPT, jika terverifikasi, mewakili kutub berlawanan dari ruang desain: pertahankan jumlah parameter yang tinggi, menang melalui rekayasa kompresi dan runtime. Kedua arah ini layak dipahami jika kamu membangun di ruang ini. Jalur sub-miliar mengoptimalkan untuk jangkauan dukungan perangkat yang lebih luas dan kecepatan inferensi. Jalur model besar yang dikuantisasi secara agresif mengoptimalkan untuk batas kemampuan tertinggi pada perangkat keras konsumen terbaik yang tersedia. Tidak ada yang salah; keduanya melayani kendala yang berbeda.

Yang telah berubah adalah batas atas dari apa yang masuk akal di ponsel baru saja didorong secara signifikan, dan pergeseran batas tersebut penting untuk cara kamu menentukan ruang lingkup proyek ke depan. Verifikasi akan menjadi bab berikutnya di sini. Tolok ukur independen, profiling memori, dan angka kecepatan pembangkitan akan mengubah ini dari sekadar siaran pers menjadi titik data yang benar-benar bisa digunakan oleh para pengembang. Pantau liputan langsung dari outlet yang berfokus pada perangkat keras dan, idealnya, angka yang dapat direproduksi dari komunitas open-source.

Sementara itu, pelajaran yang lebih tahan lama sudah ada di hadapan kita: asumsi bahwa inferensi skala frontier secara permanen terikat pada infrastruktur cloud layak diuji secara berkala, dan seseorang baru saja mengujinya di ponsel Android. Ponsel di kantongmu bukanlah pusat data. Tapi tampaknya, dengan 24GB RAM dan rekayasa yang tepat, ia mulai punya pendapat tentang hal itu.

Sumber

Questions & answers

LiberaGPT adalah aplikasi Android gratis yang dibuat oleh 5N6 LTD, sebuah perusahaan perangkat lunak independen asal Inggris. Aplikasi ini mengklaim dapat menjalankan model bahasa besar berparameter 70 miliar sepenuhnya secara offline pada perangkat Android konsumen dengan RAM 24GB.