Model bahasa besar (LLMs) seperti Claude telah mengubah cara kita menggunakan teknologi. Mereka memperkuat alat seperti chatbot, membantu menulis esai, dan bahkan membuat puisi. Namun, meskipun kemampuan mereka yang luar biasa, model-model ini masih merupakan misteri dalam banyak hal. Orang sering menyebutnya sebagai “kotak hitam” karena kita bisa melihat apa yang mereka katakan tetapi tidak tahu bagaimana mereka mencari tahu. Kurangnya pemahaman ini menciptakan masalah, terutama di area penting seperti kedokteran atau hukum, di mana kesalahan atau bias tersembunyi bisa menyebabkan kerusakan nyata.
Memahami bagaimana LLMs bekerja sangat penting untuk membangun kepercayaan. Jika kita tidak dapat menjelaskan mengapa sebuah model memberikan jawaban tertentu, sulit untuk mempercayai hasilnya, terutama di area yang sensitif. Interpretabilitas juga membantu mengidentifikasi dan memperbaiki bias atau kesalahan, memastikan model-model tersebut aman dan etis. Misalnya, jika sebuah model secara konsisten mendukung pandangan tertentu, mengetahui alasannya dapat membantu pengembang untuk memperbaikinya. Kebutuhan akan kejelasan inilah yang mendorong penelitian untuk membuat model-model ini lebih transparan.
Pemetaan Pikiran Claude
Pada pertengahan 2024, tim Anthropic membuat terobosan yang menarik. Mereka menciptakan “peta” dasar tentang bagaimana Claude memproses informasi. Dengan menggunakan teknik pembelajaran kamus, mereka menemukan jutaan pola dalam “otak” Claude – jaringan syarafnya. Setiap pola, atau “fitur,” terhubung ke gagasan tertentu. Misalnya, beberapa fitur membantu Claude mengenali kota-kota, tokoh terkenal, atau kesalahan pemrograman. Lainnya terkait dengan topik-topik yang lebih sulit, seperti bias gender atau kerahasiaan.
Peneliti menemukan bahwa gagasan-gagasan ini tidak terisolasi dalam neuron individu. Sebaliknya, mereka tersebar di banyak neuron dari jaringan Claude, dengan setiap neuron berkontribusi pada berbagai gagasan. Tumpang tindih ini membuat Anthropic sulit untuk mencari tahu gagasan-gagasan ini pada awalnya. Tetapi dengan menemukan pola-pola berulang ini, para peneliti Anthropic mulai mendekripsi bagaimana Claude mengatur pikirannya.
Melacak Penalaran Claude
Selanjutnya, Anthropic ingin melihat bagaimana Claude menggunakan pikiran-pikiran tersebut untuk membuat keputusan. Mereka baru-baru ini membangun sebuah alat yang disebut grafik atribusi, yang bekerja seperti panduan langkah demi langkah untuk proses berpikir Claude. Setiap titik di grafik adalah gagasan yang muncul di pikiran Claude, dan panah-panah menunjukkan bagaimana satu gagasan mengalir ke yang berikutnya. Grafik ini memungkinkan para peneliti melacak bagaimana Claude mengubah sebuah pertanyaan menjadi jawaban.
Untuk lebih memahami cara kerja grafik atribusi, pertimbangkan contoh ini: ketika ditanyakan, “Apa ibu kota negara bagian dengan Dallas?” Claude harus menyadari bahwa Dallas berada di Texas, kemudian mengingat bahwa ibu kota Texas adalah Austin. Grafik atribusi menunjukkan proses yang tepat ini – satu bagian dari Claude menandai “Texas,” yang kemudian mengarah ke bagian lain memilih “Austin.” Tim bahkan mengujinya dengan memodifikasi bagian “Texas,” dan memang, itu mengubah jawabannya. Ini menunjukkan bahwa Claude tidak hanya menebak – ia bekerja melalui masalah tersebut, dan sekarang kita dapat menyaksikannya terjadi.
Mengapa Ini Penting: Analogi dari Ilmu Biologi
Untuk melihat mengapa ini penting, adalah nyaman untuk memikirkan beberapa perkembangan utama dalam ilmu biologi. Sama seperti penemuan mikroskop memungkinkan ilmuwan untuk menemukan sel – blok bangunan tersembunyi dari kehidupan – alat-alat interpretabilitas ini memungkinkan peneliti kecerdasan buatan untuk menemukan blok bangunan pikiran di dalam model. Dan sama seperti memetakan sirkuit saraf dalam otak atau sekuensing genom membuka jalan bagi terobosan dalam bidang kesehatan, memetakan cara kerja dalam Claude bisa membuka jalan bagi kecerdasan mesin yang lebih andal dan terkendali. Alat-alat interpretabilitas ini bisa memainkan peran penting, membantu kita untuk melihat proses berpikir dari model-model kecerdasan buatan.
Tantangannya
Meskipun semua kemajuan ini, kita masih jauh dari memahami sepenuhnya LLMs seperti Claude. Saat ini, grafik atribusi hanya dapat menjelaskan sekitar satu dari empat keputusan Claude. Sementara peta fiturnya mengesankan, itu hanya mencakup sebagian kecil dari apa yang terjadi di dalam otak Claude. Dengan miliaran parameter, Claude dan LLM lainnya melakukan perhitungan tak terhitung untuk setiap tugas. Melacak masing-masing untuk melihat bagaimana sebuah jawaban terbentuk seperti mencoba mengikuti setiap neuron yang meledak di otak manusia selama satu pemikiran.
Ada juga tantangan “halusinasi.” Terkadang, model AI menghasilkan respons yang terdengar masuk akal tetapi sebenarnya salah – seperti dengan percaya diri menyatakan fakta yang salah. Hal ini terjadi karena model-model tersebut mengandalkan pola dari data pelatihan mereka daripada pemahaman yang sebenarnya tentang dunia. Memahami mengapa mereka menyimpang ke dalam pembuatan fiksi tetap menjadi masalah yang sulit, menyoroti kesenjangan dalam pemahaman kita tentang cara kerja mereka.
Keberpihakan adalah hambatan lain yang signifikan. Model-model AI belajar dari kumpulan data besar yang diambil dari internet, yang secara inheren membawa bias manusia – stereotip, prasangka, dan kekurangan sosial lainnya. Jika Claude mengambil bias ini dari pelatihannya, ia mungkin mencerminkannya dalam jawabannya. Membongkar dari mana bias-bias ini berasal dan bagaimana mereka mempengaruhi penalaran model merupakan tantangan yang kompleks yang membutuhkan solusi teknis dan pertimbangan data serta etika yang hati-hati.
Kesimpulan
Kerja Anthropic dalam membuat model-model bahasa besar (LLMs) seperti Claude lebih dapat dimengerti merupakan langkah maju yang signifikan dalam transparansi kecerdasan buatan. Dengan mengungkapkan bagaimana Claude memproses informasi dan membuat keputusan, mereka maju menuju penyelesaian masalah utama tentang akuntabilitas kecerdasan buatan. Kemajuan ini membuka pintu untuk integrasi yang aman dari LLMs ke dalam sektor-sektor kritis seperti perawatan kesehatan dan hukum, di mana kepercayaan dan etika sangat penting.
Saat metode untuk meningkatkan interpretabilitas berkembang, industri-industri yang telah bersikap hati-hati dalam mengadopsi kecerdasan buatan sekarang dapat mempertimbangkannya kembali. Model-model transparan seperti Claude memberikan jalan yang jelas menuju masa depan kecerdasan buatan – mesin yang tidak hanya mereplikasi kecerdasan manusia tetapi juga menjelaskan penalarannya.