Oke, teman-teman, kita perlu ngobrol serius soal apa yang baru aja terjadi di Eropa.
Biasanya, kalau kita bicara soal “Raja AI” di benua biru, nama yang langsung muncul pasti Mistral AI dari Prancis. Wajar sih, mereka emang jagoan open-weights yang konsisten nantangin dominasi Silicon Valley. Tapi, kemarin (24/2), ada penantang baru yang tiba-tiba masuk ke ring tinju dengan gaya yang nggak santai.
Namanya Multiverse Computing, startup asal Spanyol (tepatnya San Sebastian) yang baru aja merilis HyperNova 60B.
Kenapa saya bilang nggak santai? Karena mereka berani nge-klaim kalau model baru ini punya performa reasoning yang mengalahkan Mistral Large 3, tapi—dan ini bagian gilanya—dengan penggunaan memori 92% lebih rendah.
Iya, kalian nggak salah baca. Sembilan puluh dua persen. Kalau klaim ini valid, kita sedang melihat holy grail baru buat developer yang pengen jalanin model cerdas tanpa harus jual ginjal buat beli H100.
Tensor Networks: Rahasia “Diet” Ekstrem AI
Sebelum kita bedah angkanya, kita harus ngerti dulu gimana caranya mereka nyusutin model segede gaban jadi seringan itu.
Multiverse Computing ini bukan pemain baru di dunia high-performance computing. Mereka punya status “soonicorn” (startup dengan valuasi mendekati $1 Miliar) dan spesialisasi mereka ada di Tensor Networks.
Buat yang belum familiar, bayangin gini: Model LLM tradisional itu kayak lemari buku raksasa di mana banyak halamannya sebenernya kosong atau redundan (berulang). Teknik kompresi biasa (seperti Quantization atau Pruning) itu ibarat merobek halaman kosong atau ngecilin ukuran font. Efektif, tapi kadang bikin “bukunya” jadi susah dibaca atau ada konteks yang hilang.
Nah, teknologi CompactifAI milik Multiverse ini beda. Mereka pakai matematika fisika (yang terinspirasi dari quantum computing) untuk memetakan “hubungan” antar data, bukan cuma nyimpen datanya mentah-mentah.
Analogi Sederhana
Bayangkan file .zip yang nggak perlu di-unzip dulu buat dibaca isinya. Model HyperNova ini “dilipat” sedemikian rupa pakai Tensor Networks, jadi dia tetap pintar (koneksi antar neuronnya terjaga) tapi ukurannya jauh lebih kecil saat dijalankan.
Hasilnya? Model yang aslinya berbasis arsitektur kelas 120 Miliar parameter (sebut saja gpt-oss-120b), bisa dipadatkan jadi HyperNova 60B yang ukurannya cuma sekitar 32GB.
David vs Goliath: HyperNova 60B vs Mistral
Di atas kertas, spesifikasinya bikin geleng-geleng kepala. Multiverse Computing merilis model ini secara gratis di Hugging Face, yang artinya siapa saja bisa langsung pull dan tes sendiri.
Yang bikin heboh komunitas ML di Reddit dan Twitter (X) adalah klaim efisiensinya. Coba lihat perbandingan yang mereka rilis saat melawan Mistral Large 3:
HyperNova 60B vs Mistral Large 3
Ini angka yang agresif banget. Biasanya, kalau kita kompres model sampai setengah ukuran aslinya, IQ modelnya bakal “nyungsep”. Model jadi sering halusinasi atau gagal paham instruksi kompleks. Tapi Multiverse berani taruhan kalau teknik Tensor Networks mereka bisa mempertahankan intelligence index-nya.
Bahkan, mereka mengklaim model ini punya Active Parameters cuma sekitar 4.8 Miliar saat inferensi. Ini teknik sparsity yang bikin modelnya jalan super kencang karena nggak perlu mengaktifkan seluruh otak model buat jawab satu pertanyaan simpel.
Spesifikasi Teknis HyperNova 60B
| Ukuran File | ~32 GB |
| Base Architecture | gpt-oss-120b (Compressed) |
| Quantization | MXFP4 |
| Min. Hardware | Single GPU 40GB+ |
Apa Artinya Buat Kita di Indonesia?
Jujur, ini berita yang lebih exciting buat saya dibanding rilis model raksasa dari OpenAI atau Google. Kenapa? Karena aksesibilitas.
Di Indonesia, tantangan terbesar buat startup AI atau tim engineering lokal adalah infrastruktur. Sewa GPU cloud itu mahal, apalagi kalau harus serving model 70B+ parameter yang butuh multi-GPU setup (A100/H100) biar latency-nya nggak bikin user nunggu sambil ngopi.
Kalau HyperNova 60B beneran bisa jalan lancar di satu kartu grafis kelas prosumer (seperti RTX 6000 Ada atau bahkan dual RTX 3090/4090 dengan optimisasi), ini ngebuka pintu lebar banget:
- On-Premise AI: Perusahaan yang datanya sensitif (bank, rumah sakit) bisa jalanin model cerdas di server kantor sendiri tanpa perlu beli superkomputer.
- Lower Latency: Dengan ukuran yang lebih kecil, Time to First Token (TTFT) jadi jauh lebih cepat. Cocok buat aplikasi chatbot atau asisten coding.
- Cost Efficiency: Tagihan listrik dan sewa cloud bisa ditekan drastis.
Developer Note
Ingat, ini adalah model “Compressed”. Meskipun klaimnya menjaga akurasi, sebagai engineer kita wajib skeptis. Tes dulu kemampuan knowledge retrieval dan bahasa Indonesianya sebelum deploy ke production. Seringkali model kompresi kehilangan nuansa bahasa di luar bahasa Inggris.
Kesimpulan
Multiverse Computing ngasih sinyal kuat kalau masa depan AI nggak cuma soal “Bigger is Better”, tapi “Smarter is Better”. Dengan valuasi mereka yang meroket dan teknologi CompactifAI yang makin matang, Spanyol mulai nunjukin taringnya di peta AI global.
Buat kalian yang penasaran, model ini udah tersedia di Hugging Face. Lisensinya gratis buat riset dan penggunaan terbatas, tapi kalau kalian mau pakai buat heavy commercial usage via API mereka, ada biaya sekitar $0.80 per 1 juta token. Masih sangat kompetitif dibanding API model proprietary.
Sekarang giliran kalian. Ada yang udah coba pull modelnya? Beneran seringan itu atau cuma marketing gimmick? Yuk diskusi di kolom komentar!