Sebuah eksperimen ambisius bertajuk “First Proof” baru-baru ini mengguncang narasi dominasi Artificial Intelligence (AI) di bidang sains. Dipimpin oleh peraih Fields Medal 2014, Martin Hairer, bersama tim matematikawan elit dari Harvard dan Stanford, pengujian ini mengekspos keterbatasan fundamental dari model bahasa besar (LLM) tercanggih saat ini, termasuk ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think.
Kegagalan Logika pada Model Frontier
Dalam pengujian tersebut, para peneliti menggunakan soal-soal riset matematika yang belum pernah dipublikasikan untuk memastikan model AI tidak dapat mengandalkan data latihan (training data) dari internet. Hasilnya mengejutkan: meskipun mampu menyelesaikan soal standar dengan cepat, AI tampak kehilangan arah saat berhadapan dengan problem orisinal. Martin Hairer bahkan menyamakan performa AI tersebut dengan “mahasiswa S1 yang kurang pintar” karena kecenderungan mereka untuk memberikan jawaban yang bertele-tele namun kosong pada inti argumen.
Anatomi Kegagalan: Dari Hand-Waving hingga Infinite Loop
Tim peneliti mengidentifikasi beberapa kelemahan teknis yang membuat AI gagal dalam penalaran matematis tingkat tinggi:
- Halusinasi Logika (Hand-Waving): AI sering memberikan detail teknis yang sangat mendalam pada bagian yang mudah, namun melakukan lompatan logika yang tidak valid pada bagian yang sulit.
- Keterbatasan Visual Reasoning: Model LLM masih kesulitan dalam imajinasi ruang dan penalaran visual yang krusial bagi banyak cabang matematika.
- Context Window dan Degradasi Memori: Ketika pembuktian membutuhkan narasi logis lebih dari lima halaman, kualitas output AI menurun drastis dan mulai menghasilkan informasi yang tidak konsisten.
- Infinite Loop: Profesor Lauren Williams dari Harvard menemukan bahwa AI sering terjebak dalam siklus koreksi diri tanpa henti tanpa pernah mencapai solusi final.
Dampak pada Ekosistem Riset dan Sains
Tamara Kolda dari MathSci.ai menyoroti bahwa sifat AI yang cenderung menjadi “Yes Man”—hanya mengikuti arahan pengguna tanpa kemampuan berdebat—justru berisiko memperlambat kemajuan sains. Tanpa adanya dialektika dan tantangan terhadap ide-ide baru, AI hanya akan menjadi alat repetisi alih-alih inovasi. Meskipun demikian, temuan ini memberikan angin segar bagi para akademisi; matematika murni tampaknya masih menjadi domain yang aman dari otomatisasi total karena membutuhkan intuisi dan orisinalitas yang belum mampu direplikasi oleh arsitektur silikon saat ini.