Model AI Raksasa Kini Muat di HP via Tensor Network
AI & ML

Model AI Raksasa Kini Muat di HP via Tensor Network

20 Maret 2026 | 5 Menit Baca | Nabila Maharani

Multiverse merilis CompactifAI, teknologi kompresi Tensor Network yang memampatkan model AI raksasa hingga 95% untuk eksekusi offline di smartphone.

Tren industri kecerdasan buatan beberapa tahun terakhir sangat mudah diprediksi: kumpulkan data lebih banyak, sewa GPU lebih masif, dan rilis model dengan parameter raksasa. Strategi ini sukses mengangkat performa, tapi juga menjadi mimpi buruk untuk urusan deployment dan konsumsi daya. Multiverse Computing kini mencoba memutus siklus tersebut.

Perusahaan ini baru saja meluncurkan aplikasi dan API CompactifAI. Alih-alih melatih model baru dari nol, mereka mengambil model-model frontier dari OpenAI, Meta, DeepSeek, hingga Mistral AI, lalu memangkas ukurannya secara ekstrem agar bisa berjalan murni secara lokal di perangkat harian pengguna.

Bukan Sekadar Memotong Parameter

Pendekatan kompresi model AI sebenarnya bukan barang baru di kalangan developer. Komunitas open-source sudah lama mengandalkan teknik quantization—seperti yang populer di ekosistem llama.cpp. Konsepnya mirip dengan mengonversi file audio FLAC resolusi tinggi menjadi MP3 128kbps; presisi desimal diturunkan agar ukuran berkurang, meski harus mengorbankan sedikit detail output.

Pendekatan Multiverse sama sekali berbeda. Mereka menggunakan arsitektur turunan komputasi kuantum yang disebut Tensor Networks.

Alih-alih membuang parameter secara paksa (pruning) atau sekadar memotong presisi angka, metode ini menyusun ulang matriks bobot di dalam model itu sendiri. Secara matematis, Tensor Networks mencari rumus perhitungan yang jauh lebih ringkas untuk menghasilkan pola tebakan kata yang sama persis dengan aslinya.

Klaim Performa Tensor Networks Multiverse

Reduksi Ukuran 95%
Down
Hingga 20x lebih kecil
Retensi Akurasi 97%
🎯
Dari model aslinya
Efisiensi Memori 92%
Up
Pada kelas model 120B

Hasilnya, model bisa menyusut sampai 95% dari ukuran asli. Hebatnya, tingkat akurasi respons tetap terjaga dalam batas selisih 2% hingga 3% saja dari performa model basisnya yang rakus daya.

Infrastruktur Edge dan Logika Router

Multiverse akhirnya membawa model ini ke publik pada 3 Maret 2026 lewat rilis aplikasi CompactifAI untuk iOS dan Android. Aplikasi ini memungkinkan LLM berjalan offline. Pemrosesan lokal ini memangkas ketergantungan pada server cloud, sekaligus menjamin privasi untuk pengolahan data sensitif.

Lebih dari itu, Multiverse tidak sekadar memaksa model masuk ke RAM ponsel. Mereka merancang sistem orkestrasi bernama CompactifAI Router.

Dari kacamata arsitektur software, komponen ini bekerja seperti API gateway dinamis. Kalau kita hanya butuh merangkum teks pendek, router akan mengalihkan eksekusi ke model lokal di ponsel untuk menghemat bandwidth. Tapi begitu ada prompt kompleks yang butuh reasoning mendalam, sistem otomatis melempar beban kalkulasi ke versi cloud via API. Pendekatan ini menjaga keseimbangan antara privasi lokal, kecepatan, dan konsumsi baterai perangkat.

Jajaran Model: SuperFly hingga Hypernova

Untuk mendemonstrasikan keandalan metode kompresi mereka, Multiverse membangun etalase khusus bernama Model Zoo. Daftar ini berisi model-model raksasa yang sudah disusutkan.

Dua contoh awalnya adalah ChickenBrain (versi kompresi Llama 3.1 8B buatan Meta) dan SuperFly (SmolLM2 yang dipangkas hingga 94 juta parameter). Namun, gebrakan sesungguhnya ada di kelas bobot menengah dan berat.

Multiverse merilis BlackStar 12B, hasil penyusutan tajam dari arsitektur model terbuka berukuran 20B (GPT-OSS-20B). Untuk melihat seberapa efektif kompresi tingkat lanjut ini, kita bisa membandingkannya dengan kompetitor di kelas parameter yang sepadan, seperti Ministral 14B keluaran Mistral AI.

Head-to-Head: Efisiensi Reasoning

Compressed Model

BlackStar 12B

VS
Native Small Model

Ministral 14B

8.8 /10
Reasoning Output
8.5 /10
9 /10
Efisiensi Memori
7.5 /10

Pemenang

BlackStar 12B

Metode kompresi dari model 20B terbukti sedikit lebih kapabel dan jauh lebih hemat memori dibanding model native di kelas parameter serupa.

Untuk kelas berat, ada Hypernova 60B—hasil kompresi dari model masif GPT-OSS-120B. Hypernova mampu memangkas kebutuhan jejak memori (memory footprint) sampai 92% kalau dibandingkan dengan model sekelas Mistral 3 Large.

Bagi developer, angka ini bukan sekadar statistik di atas kertas. Menjalankan model 120B secara normal membutuhkan jajaran klaster GPU premium. Dengan efisiensi memori Hypernova, arsitektur reasoning serupa bisa dipaksa masuk ke dalam memori unified di MacBook Pro atau dieksekusi di jaringan single-board computer seperti Raspberry Pi.

Evolusi Ekosistem CompactifAI

+2 bln 1 mgg

API AWS

Inisiasi layanan melalui Amazon Web Services

+3 bln 3 mgg

Rilis Model Zoo

Debut ekosistem lewat model ChickenBrain dan SuperFly

+2 bln 3 mgg

Ekspansi Parameter Besar

Peluncuran rilis BlackStar 12B dan Hypernova 60B

+1 mgg 6 hr

Aplikasi Mobile

Eksekusi LLM offline di platform konsumen iOS dan Android

Integrasi NVIDIA

Model Nemotron-3 dan Nemotron-3 Omni masuk ke ekosistem API

Ekosistem backend Multiverse terus berkembang. Sejak 16 Maret 2026, API mereka resmi melayani lini model Nemotron-3 dari NVIDIA, melengkapi deretan model optimal Meta dan OpenAI.

Layanan cloud mereka memakai model bisnis berbasis token standar, lengkap dengan opsi lisensi on-premise kustom untuk korporasi besar. Mereka juga membuka akses kredit uji coba gratis bagi pengembang selama ajang GTC 2026 berlangsung.

Implikasi untuk Infrastruktur Lokal

Teknologi kompresi ini menjawab langsung hambatan utama adopsi AI generatif di negara kepulauan seperti Indonesia: keterbatasan infrastruktur internet berkapasitas besar.

Penerapan sistem AI di sektor strategis—mulai dari sensor presisi di kilang lepas pantai, otomatisasi perkebunan di pelosok, sampai operasional gudang terpencil—selalu mentok di limitasi bandwidth. Modul kompresi hingga 95% dari Multiverse memungkinkan pengembang untuk meletakkan mesin inferensi tersebut langsung di router pabrik atau PC kontrol tanpa perlu sambungan konstan ke server cloud luar negeri.

Era di mana kecerdasan komputasional hanya menjadi monopoli perusahaan dengan modal pusat data raksasa perlahan memudar. Komputasi edge yang mandiri adalah jalur paling rasional untuk mendemokratisasi AI di area minim sinyal. Mengukur efektivitas AI di masa depan bukan lagi dari berapa triliun jumlah parameternya, melainkan seberapa cerdas industri mampu memadatkannya.