Eksperimen First Proof: Mengapa ChatGPT-5.2 Pro dan Gemini 3.0 Masih Gagal Menaklukkan Matematika?

Meskipun Large Language Model (LLM) telah menunjukkan kemajuan pesat dalam berbagai tes standar, kemampuan kecerdasan buatan (AI) untuk melakukan penalaran matematika tingkat tinggi masih dipertanyakan. Profesor Martin Hairer, peraih Fields Medal 2014, bersama tim matematikawan elit dari Harvard, Stanford, dan MathSci.ai, baru-baru ini merilis hasil eksperimen bertajuk First Proof yang mengungkap batasan fundamental dari model AI tercanggih saat ini.

Metodologi Eksperimen First Proof

Eksperimen ini dirancang untuk menguji apakah AI benar-benar memahami logika matematika atau sekadar melakukan pencocokan pola dari data latihan. Tim peneliti menggunakan model-model mutakhir seperti ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think. Berbeda dengan pengujian biasa, mereka memberikan soal-soal riset orisinal yang belum pernah dipublikasikan di internet untuk memastikan AI tidak bisa menyontek jawaban dari basis data latihannya.

Hasilnya cukup mengejutkan sekaligus melegakan bagi komunitas akademik. Hairer mencatat bahwa meskipun AI mampu menyelesaikan soal latihan standar dengan mudah, model-model ini gagal total saat dihadapkan pada konsep yang membutuhkan orisinalitas ide. “Saya belum melihat contoh yang masuk akal di mana LLM menghasilkan ide atau konsep baru yang benar-benar orisinal,” tegas Hairer.

Temuan Utama: Halusinasi dan Logika yang Terputus

Dalam laporan riset tersebut, para peneliti mengidentifikasi beberapa kelemahan kritis yang membuat AI belum bisa menggantikan peran matematikawan profesional:

1. Lemahnya Penalaran Visual dan Memori

AI terbukti buruk dalam visual reasoning. Soal-soal yang membutuhkan imajinasi ruang atau representasi visual sering kali dijawab dengan argumen yang tidak koheren. Selain itu, AI memiliki batasan pada panjang pembuktian. Jika sebuah jawaban membutuhkan logika yang membentang lebih dari lima halaman, kualitas jawaban AI menurun drastis dan mulai menunjukkan gejala halusinasi atau “asbun” (asal bunyi).

2. Fenomena Infinite Loop

Lauren Williams, profesor dari Harvard, menemukan bahwa AI sering terjebak dalam lingkaran setan saat menghadapi masalah riset sungguhan. AI akan memberikan jawaban, menyadari kesalahannya, mengoreksi diri, namun kemudian kembali ke kesalahan yang sama secara berulang tanpa pernah mencapai solusi final yang valid.

3. Karakteristik Yes-Man

Tamara Kolda dari MathSci.ai menyoroti bahwa AI cenderung menjadi Yes-Man yang hanya mengikuti sudut pandang pengguna. Dalam sains, kemajuan sering kali lahir dari perdebatan ide dan tantangan terhadap status quo, sesuatu yang tidak bisa dilakukan oleh AI yang dirancang untuk menyenangkan instruksi pengguna.

Dampak bagi Industri dan Masa Depan Sains

Analisis ini memberikan perspektif penting bagi industri teknologi yang sedang berlomba-lomba mengintegrasikan AI ke dalam bidang STEM (Science, Technology, Engineering, and Mathematics). Meskipun AI sangat efisien sebagai asisten untuk tugas-tugas repetitif atau pengecekan kode dasar, kemampuan untuk melakukan lompatan intuitif dalam penemuan sains masih menjadi domain eksklusif manusia.

Aspek Pengujian	Performa AI (LLM)	Kemampuan Manusia
Soal Standar (Internet)	Sangat Tinggi	Tinggi
Riset Orisinal	Rendah/Gagal	Tinggi
Penalaran Visual	Buruk	Sangat Tinggi
Konsistensi Logika Panjang	Menurun	Stabil

Kesimpulannya, bagi para siswa atau peneliti yang khawatir akan disrupsi AI di bidang matematika murni, Hairer menegaskan bahwa disiplin ilmu ini masih aman. AI saat ini lebih menyerupai mahasiswa yang rajin menghafal namun kehilangan arah saat menghadapi problem yang membutuhkan pemahaman mendalam dan kreativitas logika.