Kegagalan LLMs dalam Matematika dan Cara Mengatasinya
Matematika selalu menjadi tantangan besar bagi model kecerdasan buatan (AI). Menguasai matematika membutuhkan keterampilan penalaran yang kompleks, dan bagi AI, tugas ini tidaklah mudah. Hal ini menjadi masalah besar mengingat pentingnya kecakapan matematika untuk kesuksesan profesional, pribadi, dan akademis.
Meskipun kemampuannya yang luar biasa, large language models (LLMs) seringkali mengalami kesulitan dalam tugas matematika yang kompleks, seperti geometri, yang membutuhkan keterampilan penalaran tingkat lanjut. Hal ini membawa kita pada pertanyaan kritis: seberapa besar kemampuan matematika model AI berasal dari penalaran yang sesungguhnya vs. sekadar mengingat data latihan?
Temuan terbaru dari Apple menunjukkan bahwa bahkan ketika difokuskan pada soal matematika tingkat sekolah dasar, model-model paling canggih tidak sepenuhnya didorong oleh “penalaran”.
Melangkah lebih jauh, tim R&D di MathGPT.ai membawa cahaya baru pada bidang matematika dari aljabar hingga kalkulus yang memerlukan perbaikan terbesar.
Data ini mengeksplorasi bagaimana variasi konteks masalah dan bahasa memengaruhi kinerja model di berbagai LLMs, termasuk model o1-preview dan o1-mini terbaru dari OpenAI. Temuan tersebut mengungkapkan tren yang mengkhawatirkan: akurasi secara konsisten menurun ketika masalah-masalah menyimpang dari pertanyaan asli yang tersedia dalam data latihan LLMs, dengan kinerja menurun tajam pada benchmark matematika yang lebih menantang di atas tingkat matematika sekolah dasar.
Dilema Mengingat vs. Penalaran
Penelitian ini difokuskan pada tiga faktor kunci:
– Menggunakan benchmark matematika yang lebih menantang daripada matematika sekolah dasar
– Mengeksplorasi “1-shot prompt” dengan kedekatan yang sangat ekstrim dengan masalah uji
– Mengimplementasikan strategi “best of n” untuk n percobaan pada masalah yang sama – efektif sebagai pemungutan suara mayoritas untuk menghilangkan anomali statistik, pada waktu inferensi.
Hasilnya menarik dan mengkhawatirkan sekaligus. Batas-batas variasi masalah dipaksakan, yang menunjukkan penurunan konsisten dalam kinerja model AI seiring persamaan matematika menjadi lebih kompleks.
Tantangan Dataset MATH
Dataset MATH diterapkan, dikenal karena masalah-masalah tingkat sekolah menengah yang menantang, berbeda dengan dataset Matematika Sekolah Dasar 8K, yang berisi 8.500 masalah tingkat dasar yang beragam secara linguistik. Dataset MATH menyajikan pertanyaan tingkat sekolah menengah yang lebih menantang untuk memeriksa kinerja model di berbagai tingkat kesulitan, dari pra-aljabar hingga teori bilangan. Pilihan ini memungkinkan MathGPT.ai untuk lebih memeriksa kinerja model di berbagai tingkat kesulitan.
Dalam pengujian, meskipun nilai numerik dan jawaban akhir tetap tidak berubah, kami bervariasi dalam bahasa, variabel, dan konteks masalah. Misalnya, skenario “menjaga anjing” dapat diubah menjadi masalah “mesin cuci piring”. Metode ini membantu mengurangi kompleksitas tambahan dari dataset MATH sambil tetap menantang kemampuan penalaran model.
Hasil yang Terungkap
Hasilnya sangat mencolok. Bahkan model-model paling canggih kesulitan ketika dihadapkan pada variasi masalah yang kemungkinan mereka temui dalam data latihan mereka. Misalnya, akurasi model o1-mini turun dari 93,66% pada pertanyaan asli menjadi 88,54% pada variasi paling menantang. Model o1-preview mengalami penurunan yang serupa, turun dari 91,22% menjadi 82,93% – – penurunan yang cukup tajam untuk menyoroti celah kritis dalam ketangguhan mereka.
Temuan ini sejalan dengan dan memperkuat penelitian sebelumnya dari Apple, yang menunjukkan bahwa keterbatasan penalaran matematika AI menjadi lebih jelas saat masalah menjadi lebih kompleks dan membutuhkan pemahaman yang lebih dalam daripada sekadar pengenalan pola.
Jalan ke Depan
Saat kita terus mendorong batas penalaran LLM, penting untuk mengakui potensi luar biasa dan keterbatasan saat ini. Penelitian baru menegaskan perlunya inovasi terus-menerus dalam mengembangkan model AI yang mampu melampaui pengenalan pola untuk mencapai keterampilan pemecahan masalah yang lebih kuat dan dapat digeneralisasikan.
Ini datang pada waktu yang kritis, terutama dalam pendidikan tinggi, di mana AI digunakan lebih intens sebagai bantuan pengajar di kelas sementara sekolah terus melihat tingkat kegagalan yang tinggi di antara siswa matematika yang tidak siap untuk mata pelajaran.
Mencapai kemampuan kognitif seperti manusia atau kecerdasan umum dalam AI menuntut tidak hanya kemajuan teknologi tetapi juga pemahaman nuansa tentang bagaimana menyambung kesenjangan antara mengingat dan penalaran yang sesungguhnya.
Jika kita berhasil di jalur ini, saya yakin kita dapat mengubah kehidupan jutaan siswa dan bahkan profesional untuk menempatkan hidup mereka pada lintasan yang benar-benar baru.