Kenaikan Model Pemikiran Kecil: Bisakah Kecerdasan Kecil AI Sebanding dengan Pemikiran Tingkat GPT?
Dalam beberapa tahun terakhir, bidang kecerdasan buatan (AI) telah terpesona oleh kesuksesan model bahasa besar (LLMs). Awalnya dirancang untuk pemrosesan bahasa alami, model-model ini telah berkembang menjadi alat pemikiran yang kuat mampu menangani masalah kompleks dengan proses berpikir langkah demi langkah seperti manusia. Namun, meskipun kemampuan pemikiran mereka yang luar biasa, LLMs memiliki kelemahan signifikan, termasuk biaya komputasi tinggi dan kecepatan implementasi yang lambat, sehingga membuat mereka tidak praktis untuk digunakan dalam keadaan dunia nyata yang memiliki batasan sumber daya seperti perangkat seluler atau komputasi tepi. Hal ini telah menimbulkan minat yang meningkat dalam pengembangan model-model kecil yang lebih efisien yang dapat menawarkan kemampuan pemikiran serupa sambil meminimalkan biaya dan tuntutan sumber daya. Artikel ini akan mengeksplorasi kenaikan model-model pemikiran kecil ini, potensi mereka, tantangan, dan implikasinya untuk masa depan AI.
## Pergeseran Perspektif
Selama sebagian besar sejarah AI baru-baru ini, bidang ini telah mengikuti prinsip “hukum penskalaan,” yang menunjukkan bahwa kinerja model meningkat secara terprediksi ketika data, daya komputasi, dan ukuran model meningkat. Meskipun pendekatan ini telah menghasilkan model-model kuat, itu juga menghasilkan trade-off yang signifikan, termasuk biaya infrastruktur tinggi, dampak lingkungan, dan masalah latensi. Tidak semua aplikasi memerlukan kemampuan penuh dari model-model besar dengan ratusan miliar parameter. Dalam banyak kasus praktis—seperti asisten di perangkat, perawatan kesehatan, dan pendidikan—model-model kecil dapat mencapai hasil yang serupa, jika mereka dapat bernalar secara efektif.
## Memahami Pemikiran dalam AI
Pemikiran dalam AI merujuk pada kemampuan sebuah model untuk mengikuti rantai logis, memahami sebab dan akibat, menyimpulkan implikasi, merencanakan langkah-langkah dalam suatu proses, dan mengidentifikasi kontradiksi. Untuk model bahasa, hal ini sering berarti tidak hanya mengambil informasi tetapi juga memanipulasi dan menarik kesimpulan dari informasi melalui pendekatan yang terstruktur, langkah demi langkah. Tingkat pemikiran ini biasanya dicapai dengan menyetel ulang LLMs untuk melakukan pemikiran multi-langkah sebelum sampai pada jawaban. Meskipun efektif, metode ini menuntut sumber daya komputasi yang signifikan dan bisa lambat dan mahal untuk diimplementasikan, menimbulkan kekhawatiran tentang aksesibilitas dan dampak lingkungan mereka.
## Memahami Model Pemikiran Kecil
Model-model pemikiran kecil bertujuan untuk mereplikasi kemampuan pemikiran dari model-model besar namun dengan efisiensi yang lebih tinggi dalam hal daya komputasi, penggunaan memori, dan latensi. Model-model ini sering menggunakan teknik yang disebut distilasi pengetahuan, di mana model yang lebih kecil (siswa) belajar dari model yang lebih besar yang sudah dilatih sebelumnya (guru). Proses distilasi melibatkan melatih model yang lebih kecil pada data yang dihasilkan oleh yang lebih besar, dengan tujuan mentransfer kemampuan berpikir. Model siswa kemudian disetel ulang untuk meningkatkan kinerjanya. Dalam beberapa kasus, pembelajaran penguatan dengan fungsi reward khusus domain diterapkan untuk lebih meningkatkan kemampuan model untuk melakukan pemikiran yang spesifik tugas.
## Kenaikan dan Kemajuan Model Pemikiran Kecil
Sebuah tonggak penting dalam pengembangan model pemikiran kecil datang dengan rilis DeepSeek-R1. Meskipun dilatih pada klaster GPU yang relatif sederhana, DeepSeek-R1 mencapai kinerja yang sebanding dengan model-model besar seperti o1 dari OpenAI pada benchmark seperti MMLU dan GSM-8K. Prestasi ini telah menyebabkan pemikiran ulang tentang pendekatan penskalaan tradisional, yang mengasumsikan bahwa model-model lebih besar secara inheren lebih unggul.
Kesuksesan DeepSeek-R1 dapat dikaitkan dengan proses pelatihan inovatifnya, yang menggabungkan pembelajaran penguatan dalam skala besar tanpa bergantung pada setel ulang terpantau pada tahap awal. Inovasi ini mengarah pada penciptaan DeepSeek-R1-Zero, sebuah model yang menunjukkan kemampuan pemikiran yang mengesankan, dibandingkan dengan model pemikiran besar. Peningkatan lebih lanjut, seperti penggunaan data awal, meningkatkan koherensi dan eksekusi tugas model, terutama di bidang matematika dan kode.
Selain itu, teknik distilasi terbukti penting dalam mengembangkan model-model yang lebih kecil dan lebih efisien dari yang lebih besar. Sebagai contoh, DeepSeek telah merilis versi distilasi dari model-modelnya, dengan ukuran mulai dari 1,5 miliar hingga 70 miliar parameter. Dengan menggunakan model-model ini, para peneliti telah melatih model yang jauh lebih kecil secara relatif, DeepSeek-R1-Distill-Qwen-32B, yang telah mengungguli o1-mini dari OpenAI pada berbagai benchmark. Model-model ini sekarang dapat diimplementasikan dengan perangkat keras standar, menjadikannya pilihan yang lebih layak untuk berbagai aplikasi.
## Bisakah Model Kecil Sebanding dengan Pemikiran Tingkat GPT
Untuk menilai apakah model pemikiran kecil (SRMs) dapat menyaingi kekuatan pemikiran model besar (LRMs) seperti GPT, penting untuk mengevaluasi kinerja mereka pada benchmark standar. Sebagai contoh, model DeepSeek-R1 mencetak sekitar 0,844 pada tes MMLU, yang sebanding dengan model besar seperti o1. Pada kumpulan data GSM-8K, yang fokus pada matematika sekolah dasar, model distilasi DeepSeek-R1 mencapai kinerja kelas teratas, melampaui baik o1 maupun o1-mini.
Dalam tugas-tugas pemrograman, seperti yang ada di LiveCodeBench dan CodeForces, model-model distilasi DeepSeek-R1 berkinerja mirip dengan o1-mini dan GPT-4o, menunjukkan kemampuan pemikiran yang kuat dalam pemrograman. Namun, model-model yang lebih besar masih memiliki keunggulan dalam tugas-tugas yang memerlukan pemahaman bahasa yang lebih luas atau penanganan jendela konteks yang panjang, karena model-model yang lebih kecil cenderung lebih spesifik tugas.
Meskipun kekuatan mereka, model-model kecil dapat mengalami kesulitan dalam tugas-tugas pemikiran yang diperpanjang atau saat dihadapkan dengan data di luar distribusi. Sebagai contoh, dalam simulasi catur LLM, DeepSeek-R1 membuat lebih banyak kesalahan daripada model-model yang lebih besar, menunjukkan keterbatasan dalam kemampuannya untuk mempertahankan fokus dan akurasi selama periode yang lama.
## Trade-off dan Implikasi Praktis
Trade-off antara ukuran model dan kinerja sangat penting saat membandingkan SRMs dengan LRMs tingkat GPT. Model-model yang lebih kecil memerlukan lebih sedikit memori dan daya komputasi, menjadikannya ideal untuk perangkat tepi, aplikasi seluler, atau situasi di mana inferensi offline diperlukan. Efisiensi ini menghasilkan biaya operasional yang lebih rendah, dengan model seperti DeepSeek-R1 menjadi hingga 96% lebih murah untuk dijalankan daripada model-model besar seperti o1.
Namun, keuntungan efisiensi ini datang dengan beberapa kompromi. Model-model yang lebih kecil biasanya disetel ulang untuk tugas-tugas tertentu, yang dapat membatasi fleksibilitas mereka dibandingkan dengan model-model yang lebih besar. Sebagai contoh, meskipun DeepSeek-R1 unggul dalam matematika dan pemrograman, ia kurang dalam kemampuan multimodal, seperti kemampuan untuk menginterpretasi gambar, yang model-model yang lebih besar seperti GPT-4o dapat tangani.
Meskipun keterbatasan ini, aplikasi praktis dari model-model pemikiran kecil sangat luas. Di bidang kesehatan, mereka dapat menggerakkan alat diagnostik yang menganalisis data medis pada server rumah sakit standar. Di bidang pendidikan, mereka dapat digunakan untuk mengembangkan sistem tutor personal, memberikan umpan balik langkah demi langkah kepada siswa. Dalam penelitian ilmiah, mereka dapat membantu dalam analisis data dan pengujian hipotesis di bidang matematika dan fisika. Sifat sumber terbuka dari model-model seperti DeepSeek-R1 juga mendorong kerjasama dan memdemokratisasi akses ke AI, memungkinkan organisasi kecil untuk mendapatkan manfaat dari teknologi canggih.
## Kesimpulan
Evolusi model bahasa menjadi model-model pemikiran kecil adalah kemajuan signifikan dalam AI. Meskipun model-model ini belum sepenuhnya sebanding dengan kemampuan luas model bahasa besar, mereka menawarkan keuntungan kunci dalam efisiensi, hemat biaya, dan aksesibilitas. Dengan mencapai keseimbangan antara kekuatan pemikiran dan efisiensi sumber daya, model-model kecil siap memainkan peran penting di berbagai aplikasi, membuat AI lebih praktis dan berkelanjutan untuk digunakan dalam dunia nyata.