AI Canggih vs PDF Jadul: Kenapa File Paling Membosankan Ini Jadi Mimpi Buruk Artificial Intelligence?
AI & ML

AI Canggih vs PDF Jadul: Kenapa File Paling Membosankan Ini Jadi Mimpi Buruk Artificial Intelligence?

23 Februari 2026 | 5 Menit Baca | Nabila Maharani

Kita sibuk ngomongin AGI, tapi ternyata AI tercanggih pun masih 'nangis' kalau disuruh baca tabel di file PDF. Ini alasan teknis kenapa format tahun 90-an ini jadi musuh terbesar Machine Learning.

Coba jujur deh, berapa kali kalian merasa frustrasi pas mau copy-paste teks dari file PDF tapi hasilnya malah berantakan? Spasinya ilang, paragrafnya nyatu, atau malah jadi karakter kotak-kotak nggak jelas.

Nah, sekarang bayangkan kalau frustrasi itu dirasakan bukan sama manusia, tapi sama Artificial Intelligence (AI) yang katanya “super jenius”.

Di era di mana kita udah bisa generate video dari teks dan ngoding pakai bantuan copilot, ada satu fakta kocak sekaligus menyedihkan: AI ternyata masih bodoh banget kalau urusan baca PDF. Padahal, format ini adalah standar dokumen dunia. Edwin Chen, CEO dari perusahaan data Surge, bahkan menyebut fenomena ini sebagai salah satu “kegagalan AI yang paling nggak seksi”.

Kenapa format file yang umurnya udah lebih dari 30 tahun ini bisa bikin model bahasa canggih (LLM) sekalipun jadi halusinasi? Mari kita bedah bareng-bareng.

Studi Kasus: Jutaan Dokumen yang “Terkunci”

Cerita ini bermula dari masalah nyata yang dihadapi Luke Igel dan timnya. Ingat kasus dokumen Jeffrey Epstein yang dirilis pemerintah AS? November lalu, House Oversight Committee merilis sekitar 20.000 halaman dokumen. Nggak lama kemudian, Departemen Kehakiman (DOJ) merilis batch file mereka sendiri: lebih dari tiga juta file. Semuanya PDF.

Masalahnya? Dokumen-dokumen ini ibarat tumpukan kertas digital yang di-scan dengan kualitas seadanya.

Mimpi Buruk Data Scientist

Bayangkan 3 juta file PDF tanpa indeks yang proper. Kalian nggak bisa search “penerbangan ke pulau X” atau “transaksi Amazon”. Kalian cuma bisa buka file satu-satu, berharap nemu ID dokumen yang bener, dan berdoa teksnya bisa dibaca.

Igel punya ide liar: “Gimana kalau kita bikin tiruan Gmail (Gmail clone) buat nyari dan ngebaca semua korespondensi ini?” Idenya brilian. Tapi eksekusinya? Neraka dunia coding.

Walaupun pemerintah udah coba pakai OCR (Optical Character Recognition) bawaan, hasilnya “kotor” banget. Searchable text-nya nggak akurat. Teman Igel, Riley Walz, sempat mencoba menggunakan kredit API dari model Gemini punya Google. Hasilnya? Cuma berhasil di scan yang bersih banget. Kalau dipakai buat jutaan dokumen yang buram atau tulisan tangan? Biayanya bakal bikin bangkrut dan hasilnya belum tentu bener.

Di sinilah ironinya: Kita punya teknologi AI yang bisa memecahkan masalah fisika tingkat lanjut, tapi “tersedak” saat disuruh baca tabel di laporan keuangan format PDF.

Kenapa PDF Itu “Keras Kepala”?

Buat teman-teman developer atau yang sering main data, kalian pasti tahu kalau PDF itu merepotkan. Tapi buat yang awam, mungkin bingung: “Lho, kan cuma teks? Apa susahnya?”

Nah, ini dia miskonsepsinya. PDF itu bukan dokumen teks seperti HTML atau Microsoft Word.

Asal Usul PDF: Digital Paper

Format PDF diciptakan Adobe di awal 90-an dengan satu tujuan mulia: Konsistensi Visual.

Nggak peduli kalian buka di perangkat apa pun, tampilannya harus sama persis. Beda sama HTML yang tampilannya berubah tergantung browser, atau Word yang bisa berantakan kalau beda versi.

Secara teknis, PDF itu lebih mirip instruksi melukis daripada dokumen tulisan. Di dalamnya nggak ada struktur logis kayak “Ini Judul”, “Ini Paragraf”, atau “Ini Tabel”. Isinya adalah kode koordinat untuk menggambar huruf di titik tertentu. Komputer tidak secara otomatis tahu kalau kumpulan huruf itu membentuk sebuah kata atau kalimat.

Masalah makin runyam kalau ketemu format kolom ganda (seperti di jurnal akademis). OCR tradisional seringkali ngebaca teks dari kiri ke kanan melewati batas kolom, membuat kalimat dari kolom kiri nyambung ke kolom kanan menjadi teks yang tidak masuk akal.

Pierre-Carl Langlais, seorang researcher AI, bilang kalau tantangan utamanya adalah Struktur Editorial. “Kalau teks polos sih oke. Tapi begitu ketemu tabel, formulir, catatan kaki (footnote), atau header, AI mulai pusing,” katanya. AI sering gagal paham norma budaya tekstual dalam dokumen.

Solusi: Memperlakukan PDF Sebagai Gambar, Bukan Teks

Balik lagi ke cerita Luke Igel tadi. Karena model bahasa biasa gagal, dia menghubungi teman lamanya dari MIT, Adit Abraham, yang menjalankan startup bernama Reducto—khusus untuk parsing PDF menggunakan AI.

Pendekatan baru yang mulai populer sekarang adalah menggunakan Vision Language Model (VLM). Alih-alih memaksa komputer membaca kode teks yang berantakan di balik PDF, model ini dilatih untuk “melihat” halaman PDF layaknya manusia melihat gambar (piksel), lalu menerjemahkannya.

Tim di Allen Institute for AI (AI2) juga melakukan hal serupa dengan model mereka, olmOCR. Mereka melatih model ini dengan sekitar 100.000 PDF—buku public domain, jurnal, brosur—biar si AI ngerti konsep visual dokumen.

Skala Masalah Dokumen Epstein

Rilisan Awal 20K
Halaman Dokumen
Batch DOJ 3 Juta
File PDF Tambahan

Hasil kolaborasi Igel dengan teknologi parsing canggih ini akhirnya melahirkan ekosistem aplikasi khusus untuk menelusuri dokumen Epstein:

  • Jmail: Interface kayak email buat baca inbox yang bocor.
  • Jflights: Peta interaktif penerbangan, di mana setiap jalur bisa diklik buat liat manifes penumpang aslinya.
  • Jamazon: Buat search history belanjaan di Amazon yang ditemukan dalam file.
  • Jikipedia: Untuk mencari profil bisnis dan orang yang muncul di dokumen.

Semua data ini berhasil diekstrak dari PDF yang tadinya sulit diakses. “Di situlah magic-nya kerasa nyata buat gue,” kata Igel. “Ini bakal mengubah cara kerja banyak profesi.”

Perburuan Data di Balik PDF

Topik ini mungkin tidak terdengar seheboh AI yang punya kesadaran, tetapi ini adalah masalah engineering yang krusial. Kenapa? Karena pengembang AI sangat membutuhkan data berkualitas tinggi, dan faktanya, triliunan token data berkualitas tinggi “terpenjara” di dalam file PDF: laporan pemerintah, buku teks, hingga jurnal ilmiah. Peneliti dari Allen Institute menyebut bahwa PDF berpotensi menyediakan triliunan token baru untuk melatih model bahasa masa depan.

Duff Johnson, CEO PDF Association, mengatakan bahwa PDF tidak akan tergantikan karena kemampuannya mempertahankan catatan yang konsisten. Ia bahkan menceritakan bahwa PDF pertama konon adalah formulir pajak IRS 1040. “Tidak ada teknologi lain yang bisa memecahkan masalah yang diselesaikan oleh PDF,” katanya. Website bisa berubah dan link bisa mati, tetapi PDF dari tahun 1995 masih bisa dibuka hari ini dengan tampilan yang sama persis.

Jadi, sebelum AI bisa benar-benar menguasai tugas-tugas kompleks, mereka harus belajar cara memahami dokumen yang sudah menjadi standar dunia selama tiga dekade ini.

Gimana menurut kalian? Ada yang pernah kesulitan saat mencoba mengekstrak data dari PDF? Share pengalaman kalian di kolom komentar ya!