Gemini 3.1 Pro: Google Pamer Otak Encer, Tapi Kok Masih Kalah 'Vibes' dari Claude?
AI & ML

Gemini 3.1 Pro: Google Pamer Otak Encer, Tapi Kok Masih Kalah 'Vibes' dari Claude?

20 Februari 2026 | 6 Menit Baca | Tim Redaksi Teksate.id

Google baru saja merilis Gemini 3.1 Pro dengan klaim kemampuan reasoning yang melonjak drastis. Apakah ini raja baru AI, atau sekadar upgrade minor?

Baru juga kemarin rasanya kita bahas Gemini 3 yang rilis bulan November, eh Google udah “ngegas” lagi. Hari ini, raksasa teknologi asal Mountain View itu resmi meluncurkan Gemini 3.1 Pro.

Jujur aja, siklus rilis AI belakangan ini makin nggak masuk akal cepatnya. Tapi pertanyaan besarnya: Apakah label “3.1” ini cuma sekadar patch kecil buat benerin bug, atau ada lompatan performa yang signifikan? Google sih bilangnya model ini siap melahap “tantangan terberat kalian”.

Klaim marketing? Mungkin. Tapi kalau kita bedah paper dan benchmark yang mereka bawa, sepertinya Google nggak main-main soal urusan “logika” kali ini, meskipun—spoiler alert—mereka masih punya PR besar di mata komunitas developer soal “rasa” pemakaian.

Mari kita bedah lebih dalam, apa sebenarnya yang baru dari Gemini 3.1 Pro dan kenapa ini penting buat kalian yang hidupnya bergantung pada AI.

Bukan Sekadar Angka: Lompatan Logika yang Mengerikan

Hal pertama yang harus kita soroti adalah kenapa model ini dirilis. Ternyata, Gemini 3.1 Pro adalah “core intelligence” atau otak utama di balik fitur Deep Think yang baru aja di-update Google minggu lalu. Jadi, kemampuan reasoning atau menalar masalah kompleks adalah jualan utamanya.

Nah, di sini menariknya. Biasanya kalau ada update versi desimal (kayak 3.0 ke 3.1), kita cuma ekspektasi kenaikan performa 5-10 persen. Tapi data di lapangan berkata lain, terutama di pengujian yang menuntut kreativitas logika, bukan sekadar hafalan.

Coba perhatikan benchmark ARC-AGI-2. Ini adalah tes yang dirancang khusus dengan masalah-masalah logika baru yang nggak bisa dilatih atau dihafal sebelumnya oleh AI. Di Gemini 3 versi awal, Google cuma dapet skor 31,1%. Angka yang cukup memalukan kalau dibandingkan kompetitor yang udah main di angka 50-60an.

Lompatan Performa Logika (ARC-AGI-2)

Gemini 3.0 31.1%
Low
Versi November
Gemini 3.1 Pro 77.1%
🚀
High
Versi Terbaru

Gila nggak? Dari 31% lompat ke 77,1%. Ini bukan improvement biasa, ini namanya ganti otak. Google berhasil melipatgandakan kemampuan modelnya dalam memecahkan masalah yang belum pernah dilihat sebelumnya. Buat kalian yang sering pake AI buat coding algoritma rumit atau mecahin masalah matematika yang njelimet, ini kabar surga.

Menguasai “Ujian Terakhir Manusia”

Nggak cuma jago logika abstrak, Google juga pamer kemampuan akademisnya lewat benchmark Humanity’s Last Exam. Nama benchmark-nya emang agak lebay, tapi tujuannya jelas: menguji pengetahuan spesifik tingkat lanjut di berbagai bidang (domain-specific knowledge).

Di sini, Gemini 3.1 Pro mencetak rekor baru dengan skor 44,4%. Mungkin kedengarannya rendah (di bawah 50%), tapi ini tes yang super susah, guys. Sebagai perbandingan, Gemini 3 Pro sebelumnya cuma dapet 37,5%.

Lalu gimana sama tetangga sebelah? OpenAI dengan GPT 5.2-nya (yup, kita udah di era GPT 5.2 sekarang) tercatat ada di angka 34,5%. Jadi di atas kertas, untuk urusan pengetahuan mendalam dan teknis, Gemini 3.1 Pro sedang memegang mahkota saat ini.

Kabar Baik Buat Developer Agent

Bukan cuma buat chat, Gemini 3.1 Pro juga menunjukkan peningkatan masif di benchmark APEX-Agents. Skornya hampir dua kali lipat dibanding pendahulunya. Artinya, kalau kalian bikin aplikasi yang butuh AI buat ngambil keputusan otonom (agentic workflow), model ini bakal jauh lebih bisa diandalkan.

Realita Pahit: Masih Kalah “Vibes” di Arena

Walaupun Google teriak-teriak soal skor benchmark akademis, ada satu realita yang agak pait buat mereka: Leaderboard Arena.

Buat yang belum tau, Arena (dulunya LM Arena) itu adalah “juri jalanan”-nya dunia AI. Sistemnya blind test, di mana user memilih jawaban mana yang lebih enak dibaca dan lebih membantu. Ini soal vibes, soal seberapa natural dan helpful si AI, bukan cuma soal bener atau salah secara teknis.

Biasanya, setiap Google rilis model baru, mereka langsung pamer kalau mereka nomor 1 di Arena. Tapi kali ini? Hening.

Kenapa? Karena datanya bilang lain:

  1. Kategori Teks: Claude Opus 4.6 masih memimpin dengan skor 1504, unggul tipis 4 poin dari Gemini baru.
  2. Kategori Coding: Ini yang agak sakit. Claude Opus 4.6, Opus 4.5, dan bahkan GPT 5.2 High semuanya masih nangkring di atas Gemini 3.1 Pro.

Apa artinya? Artinya, meskipun Gemini 3.1 Pro secara teknis lebih pinter mecahin logika matematika (seperti di ARC-AGI-2), output teks atau kodingan yang dihasilkannya mungkin belum senatural atau se-”enak” Claude di mata mayoritas user. Kadang jawaban yang bener secara faktual belum tentu jawaban yang memuaskan user, kan?

Google mencoba menambal ini dengan memamerkan kemampuan generasi grafis dan simulasi. Mereka nunjukin contoh file SVG yang jauh lebih elegan dibanding versi sebelumnya. Tapi ya… namanya juga demo kurasi vendor, pasti yang ditampilin yang bagus-bagus aja. Kita perlu tes sendiri nanti.

Harga Tetap, Performa Meningkat: Strategi “Bakar Duit” Masih Lanjut?

Satu hal yang patut kita apresiasi dari Google adalah konsistensi harganya. Di tengah kemampuan yang melonjak (terutama di sektor logika tadi), Google memutuskan untuk tidak menaikkan harga API.

Ini penting banget buat ekosistem startup di Indonesia yang sensitif harga. Bayangkan dapet mesin yang 2x lebih pinter logikanya, tapi bayarnya sama.

Spesifikasi & Harga API Gemini 3.1 Pro

Input Cost
$2 / 1M tokens
Output Cost
$12 / 1M tokens
Context Window
1 Juta (Input) / 64k (Output)
Ketersediaan
AI Studio, Vertex AI, Gemini App

Kapasitas context window juga masih dipertahankan di angka 1 juta token untuk input. Cukup lah buat masukin satu buku teks tebal atau dokumentasi kodingan satu proyek buat dianalisa.

Ketersediaan: Bisa Dicoba Sekarang?

Kabar baiknya, kalian nggak perlu nunggu lama. Google langsung membuka akses versi preview ini mulai hari ini.

  • Buat Developer: Bisa langsung meluncur ke AI Studio atau via Antigravity IDE.
  • Buat Enterprise: Sudah nongol di Vertex AI dan Gemini Enterprise.
  • Buat Kaum Gratisan/Regular: Cek aplikasi Gemini kalian atau buka NotebookLM. Harusnya model ini sudah mulai digulirkan.

Satu prediksi menarik dari pola rilis Google: biasanya setelah versi “Pro” keluar, versi “Flash” (yang lebih cepat dan murah) bakal segera menyusul. Jadi kalau 3.1 Pro ini terasa agak berat atau mahal buat use-case ringan, tunggu aja versi Flash-nya dalam waktu dekat.

Kesimpulan: Upgrade Wajib atau Skip Dulu?

Jadi, gimana posisi Gemini 3.1 Pro di peta persaingan AI saat ini?

Kalau kalian adalah power user yang sering nanya pertanyaan abstrak, butuh reasoning mendalam, atau developer yang sedang membangun autonomous agent, Gemini 3.1 Pro adalah upgrade wajib. Lompatan skor di ARC-AGI-2 itu bukan gimmick; itu indikasi bahwa model ini punya “nalar” yang lebih matang dalam menghadapi situasi baru.

Tapi, kalau kalian cuma butuh teman ngobrol, bikin kodingan standar, atau nulis email, mungkin kalian nggak bakal ngerasain beda jauh dibanding Gemini 3.0, atau bahkan mungkin kalian masih lebih nyaman sama gaya bahasanya Claude Opus.

Google jelas sedang mencoba memenangkan perang “kecerdasan murni” dengan angka benchmark fantastis. Tapi jangan lupa, di ujung hari, AI itu dipakai manusia. Kalau Claude masih terasa lebih “manusiawi” dan GPT masih lebih populer, Google punya tugas rumah buat bikin kepintaran Gemini 3.1 Pro ini bisa diterjemahkan jadi pengalaman user yang lebih menyenangkan.

Gimana menurut kalian? Udah coba Gemini 3.1 Pro hari ini? Lebih pinter atau malah makin halu? Tulis di kolom komentar ya!