Tren industri kecerdasan buatan beberapa tahun terakhir sangat mudah diprediksi: kumpulkan data lebih banyak, sewa GPU lebih masif, dan rilis model dengan parameter raksasa. Strategi ini sukses mengangkat performa, tapi juga menjadi mimpi buruk untuk urusan deployment dan konsumsi daya. Multiverse Computing kini mencoba memutus siklus tersebut.
Perusahaan ini baru saja meluncurkan aplikasi dan API CompactifAI. Alih-alih melatih model baru dari nol, mereka mengambil model-model frontier dari OpenAI, Meta, DeepSeek, hingga Mistral AI, lalu memangkas ukurannya secara ekstrem agar bisa berjalan murni secara lokal di perangkat harian pengguna.
Bukan Sekadar Memotong Parameter
Pendekatan kompresi model AI sebenarnya bukan barang baru di kalangan developer. Komunitas open-source sudah lama mengandalkan teknik quantization—seperti yang populer di ekosistem llama.cpp. Konsepnya mirip dengan mengonversi file audio FLAC resolusi tinggi menjadi MP3 128kbps; presisi desimal diturunkan agar ukuran berkurang, meski harus mengorbankan sedikit detail output.
Pendekatan Multiverse sama sekali berbeda. Mereka menggunakan arsitektur turunan komputasi kuantum yang disebut Tensor Networks.
Alih-alih membuang parameter secara paksa (pruning) atau sekadar memotong presisi angka, metode ini menyusun ulang matriks bobot di dalam model itu sendiri. Secara matematis, Tensor Networks mencari rumus perhitungan yang jauh lebih ringkas untuk menghasilkan pola tebakan kata yang sama persis dengan aslinya.
Klaim Performa Tensor Networks Multiverse
Hasilnya, model bisa menyusut sampai 95% dari ukuran asli. Hebatnya, tingkat akurasi respons tetap terjaga dalam batas selisih 2% hingga 3% saja dari performa model basisnya yang rakus daya.
Infrastruktur Edge dan Logika Router
Multiverse akhirnya membawa model ini ke publik pada 3 Maret 2026 lewat rilis aplikasi CompactifAI untuk iOS dan Android. Aplikasi ini memungkinkan LLM berjalan offline. Pemrosesan lokal ini memangkas ketergantungan pada server cloud, sekaligus menjamin privasi untuk pengolahan data sensitif.
Lebih dari itu, Multiverse tidak sekadar memaksa model masuk ke RAM ponsel. Mereka merancang sistem orkestrasi bernama CompactifAI Router.
Dari kacamata arsitektur software, komponen ini bekerja seperti API gateway dinamis. Kalau kita hanya butuh merangkum teks pendek, router akan mengalihkan eksekusi ke model lokal di ponsel untuk menghemat bandwidth. Tapi begitu ada prompt kompleks yang butuh reasoning mendalam, sistem otomatis melempar beban kalkulasi ke versi cloud via API. Pendekatan ini menjaga keseimbangan antara privasi lokal, kecepatan, dan konsumsi baterai perangkat.
Jajaran Model: SuperFly hingga Hypernova
Untuk mendemonstrasikan keandalan metode kompresi mereka, Multiverse membangun etalase khusus bernama Model Zoo. Daftar ini berisi model-model raksasa yang sudah disusutkan.
Dua contoh awalnya adalah ChickenBrain (versi kompresi Llama 3.1 8B buatan Meta) dan SuperFly (SmolLM2 yang dipangkas hingga 94 juta parameter). Namun, gebrakan sesungguhnya ada di kelas bobot menengah dan berat.
Multiverse merilis BlackStar 12B, hasil penyusutan tajam dari arsitektur model terbuka berukuran 20B (GPT-OSS-20B). Untuk melihat seberapa efektif kompresi tingkat lanjut ini, kita bisa membandingkannya dengan kompetitor di kelas parameter yang sepadan, seperti Ministral 14B keluaran Mistral AI.
Head-to-Head: Efisiensi Reasoning
BlackStar 12B
Ministral 14B
Pemenang
BlackStar 12B
Metode kompresi dari model 20B terbukti sedikit lebih kapabel dan jauh lebih hemat memori dibanding model native di kelas parameter serupa.
Untuk kelas berat, ada Hypernova 60B—hasil kompresi dari model masif GPT-OSS-120B. Hypernova mampu memangkas kebutuhan jejak memori (memory footprint) sampai 92% kalau dibandingkan dengan model sekelas Mistral 3 Large.
Bagi developer, angka ini bukan sekadar statistik di atas kertas. Menjalankan model 120B secara normal membutuhkan jajaran klaster GPU premium. Dengan efisiensi memori Hypernova, arsitektur reasoning serupa bisa dipaksa masuk ke dalam memori unified di MacBook Pro atau dieksekusi di jaringan single-board computer seperti Raspberry Pi.
Evolusi Ekosistem CompactifAI
API AWS
Inisiasi layanan melalui Amazon Web Services
Rilis Model Zoo
Debut ekosistem lewat model ChickenBrain dan SuperFly
Ekspansi Parameter Besar
Peluncuran rilis BlackStar 12B dan Hypernova 60B
Aplikasi Mobile
Eksekusi LLM offline di platform konsumen iOS dan Android
Integrasi NVIDIA
Model Nemotron-3 dan Nemotron-3 Omni masuk ke ekosistem API
Ekosistem backend Multiverse terus berkembang. Sejak 16 Maret 2026, API mereka resmi melayani lini model Nemotron-3 dari NVIDIA, melengkapi deretan model optimal Meta dan OpenAI.
Layanan cloud mereka memakai model bisnis berbasis token standar, lengkap dengan opsi lisensi on-premise kustom untuk korporasi besar. Mereka juga membuka akses kredit uji coba gratis bagi pengembang selama ajang GTC 2026 berlangsung.
Implikasi untuk Infrastruktur Lokal
Teknologi kompresi ini menjawab langsung hambatan utama adopsi AI generatif di negara kepulauan seperti Indonesia: keterbatasan infrastruktur internet berkapasitas besar.
Penerapan sistem AI di sektor strategis—mulai dari sensor presisi di kilang lepas pantai, otomatisasi perkebunan di pelosok, sampai operasional gudang terpencil—selalu mentok di limitasi bandwidth. Modul kompresi hingga 95% dari Multiverse memungkinkan pengembang untuk meletakkan mesin inferensi tersebut langsung di router pabrik atau PC kontrol tanpa perlu sambungan konstan ke server cloud luar negeri.
Era di mana kecerdasan komputasional hanya menjadi monopoli perusahaan dengan modal pusat data raksasa perlahan memudar. Komputasi edge yang mandiri adalah jalur paling rasional untuk mendemokratisasi AI di area minim sinyal. Mengukur efektivitas AI di masa depan bukan lagi dari berapa triliun jumlah parameternya, melainkan seberapa cerdas industri mampu memadatkannya.
