Pengaruh Data Sintetis Terhadap Halusinasi AI
Data sintetis merupakan alat yang sangat kuat, namun hanya dapat mengurangi halusinasi kecerdasan buatan dalam keadaan tertentu. Dalam hampir semua kasus lainnya, data sintetis justru akan memperkuat halusinasi tersebut. Mengapa hal ini terjadi? Apa arti fenomena ini bagi mereka yang telah berinvestasi di dalamnya?
Apa Perbedaan Antara Data Sintetis dan Data Asli?
Data sintetis adalah informasi yang dihasilkan oleh kecerdasan buatan. Sebagai gantinya dari dikumpulkan dari peristiwa atau observasi dunia nyata, data ini diproduksi secara artifisial. Namun, data ini cukup mirip dengan data asli untuk menghasilkan output yang akurat dan relevan. Itulah ide di baliknya.
Untuk membuat dataset buatan, para insinyur kecerdasan buatan melatih algoritma generatif pada basis data relasional nyata. Ketika diminta, algoritma tersebut menghasilkan set kedua yang mirip dengan set pertama tetapi tidak mengandung informasi asli. Meskipun tren umum dan properti matematis tetap utuh, ada cukup noise untuk menyamarkan hubungan aslinya.
Sebuah dataset yang dihasilkan oleh kecerdasan buatan melampaui deidentifikasi, mereplikasi logika dasar dari hubungan antar bidang daripada sekadar menggantikan bidang dengan alternatif yang setara. Karena tidak mengandung rincian identifikasi, perusahaan dapat menggunakannya untuk menghindari regulasi privasi dan hak cipta. Lebih penting lagi, mereka dapat dengan bebas membagikan atau mendistribusikannya tanpa takut pelanggaran.
Namun, informasi palsu lebih umum digunakan untuk pemenuhan. Bisnis dapat menggunakannya untuk memperkaya atau memperluas ukuran sampel yang terlalu kecil, membuatnya cukup besar untuk melatih sistem kecerdasan buatan secara efektif.
Apakah Data Sintetis Mengurangi Halusinasi AI?
Terkadang, algoritma merujuk pada peristiwa yang tidak ada atau membuat saran yang secara logis tidak mungkin. Halusinasi ini seringkali tidak masuk akal, menyesatkan, atau salah. Misalnya, sebuah model bahasa besar mungkin menulis artikel panduan tentang melatih singa atau menjadi seorang dokter pada usia 6 tahun. Namun, tidak semua halusinasi ini seekstrem itu, yang bisa membuat mengenali mereka menjadi tantangan.
Jika disusun dengan tepat, data buatan dapat mengurangi kejadian-kejadian ini. Basis data pelatihan yang relevan dan autentik adalah dasar bagi setiap model, sehingga wajar jika semakin banyak detail yang dimiliki seseorang, semakin akurat output model mereka. Sebuah dataset tambahan memungkinkan skalabilitas, bahkan untuk aplikasi-aplikasi niche dengan informasi publik yang terbatas.
Debiasing adalah cara lain di mana database sintetis dapat mengurangi halusinasi AI. Menurut MIT Sloan School of Management, dapat membantu mengatasi bias karena tidak terbatas pada ukuran sampel asli. Para profesional dapat menggunakan rincian realistis untuk mengisi celah di mana subpopulasi tertentu direpresentasikan secara kurang atau berlebihan.
Bagaimana Data Buatan Membuat Halusinasi Semakin Parah
Karena algoritma cerdas tidak dapat merasionalkan atau mengontekstualisasikan informasi, mereka rentan terhadap halusinasi. Model generatif – khususnya model bahasa besar yang telah dilatih sebelumnya – sangat rentan. Dalam beberapa hal, fakta-fakta buatan memperburuk masalah tersebut.
Amplifikasi Bias
Seperti manusia, kecerdasan buatan dapat belajar dan memperbanyak bias. Jika sebuah database buatan melebih-lebihkan beberapa kelompok sementara mengabaikan yang lain – yang mudah dilakukan secara tidak sengaja – logika pengambilan keputusan akan condong, mempengaruhi akurasi output. Masalah serupa dapat muncul ketika perusahaan menggunakan data palsu untuk menghilangkan bias dunia nyata karena data tambahan tersebut mungkin tidak lagi mencerminkan realitas. Sebagai contoh, karena lebih dari 99% kanker payudara terjadi pada wanita, menggunakan informasi tambahan untuk menyeimbangkan representasi bisa menyesatkan diagnosis.
Halusinasi Intersectional
Intersectionality adalah kerangka sosiologis yang menggambarkan bagaimana demografi seperti usia, gender, ras, pekerjaan, dan kelas saling berpotongan. Hal ini menganalisis bagaimana identitas sosial kelompok saling tumpang tindih menghasilkan kombinasi diskriminasi dan keistimewaan yang unik.
Ketika sebuah model generatif diminta untuk menghasilkan rincian buatan berdasarkan apa yang ia latih, ia mungkin menghasilkan kombinasi yang tidak ada dalam data asli atau secara logis tidak mungkin. Ericka Johnson, seorang profesor gender dan masyarakat di Linköping University, bekerja dengan seorang ilmuwan pembelajaran mesin untuk mendemonstrasikan fenomena ini. Mereka menggunakan jaringan generatif adversarial untuk membuat versi sintetis dari data sensus Amerika Serikat tahun 1990.
Langsung mereka perhatikan masalah yang mencolok. Versi buatan memiliki kategori berjudul “istri dan lajang” dan “suami yang tidak pernah menikah,” yang keduanya adalah halusinasi intersectional. Tanpa kurasi yang tepat, database replika akan selalu mendominasi subpopulasi utama dalam dataset sementara mengabaikan – atau bahkan mengecualikan – kelompok-kelompok yang kurang direpresentasikan. Kasus tepi dan outlier mungkin diabaikan sepenuhnya demi tren dominan.
Penghancuran Model
Ketergantungan berlebihan pada pola dan tren buatan menyebabkan penghancuran model – di mana kinerja algoritma secara drastis menurun karena menjadi kurang dapat beradaptasi dengan observasi dan peristiwa dunia nyata. Fenomena ini terutama tampak dalam generasi AI generasi berikutnya. Penggunaan berulang-ulang versi buatan untuk melatih mereka menghasilkan loop yang merusak. Sebuah studi menemukan bahwa kualitas dan recall mereka secara progresif menurun tanpa cukup data aktual yang cukup dalam setiap generasi.
Overfitting
Overfitting adalah ketergantungan berlebihan pada data pelatihan. Algoritma awalnya tampil baik tetapi akan halusinasi ketika dihadapkan pada titik data baru. Informasi sintetis dapat memperburuk masalah ini jika tidak mencerminkan realitas dengan tepat.
Implikasi Penggunaan Data Sintetis yang Berkelanjutan
Pasar data sintetis sedang booming. Perusahaan-perusahaan dalam industri niche ini mengumpulkan sekitar $328 juta pada tahun 2022, naik dari $53 juta pada tahun 2020 – peningkatan 518% hanya dalam 18 bulan. Perlu dicatat bahwa ini hanya pendanaan yang diketahui secara publik, yang berarti angka sebenarnya mungkin lebih tinggi. Dapat dikatakan bahwa perusahaan sangat berinvestasi dalam solusi ini.
Jika perusahaan terus menggunakan database buatan tanpa kurasi dan debiasing yang tepat, kinerja model mereka akan terus menurun secara progresif, merusak investasi AI mereka. Hasilnya bisa lebih parah, tergantung pada aplikasinya. Misalnya, dalam perawatan kesehatan, lonjakan halusinasi dapat mengakibatkan diagnosis yang keliru atau rencana perawatan yang tidak tepat, menyebabkan hasil yang lebih buruk bagi pasien.
Solusi Tidak Akan Melibatkan Kembali ke Data Nyata
Sistem AI memerlukan jutaan, jika tidak miliaran, gambar, teks, dan video untuk pelatihan, sebagian besar diambil dari situs web publik dan dikompilasi dalam dataset terbuka yang besar. Sayangnya, algoritma mengonsumsi informasi ini lebih cepat daripada manusia bisa menghasilkannya. Apa yang terjadi ketika mereka sudah belajar segalanya?
Pemimpin bisnis khawatir akan mencapai batas data – titik di mana semua informasi publik di internet telah habis. Hal ini mungkin mendekat lebih cepat dari yang mereka kira. Meskipun jumlah teks yang ada di halaman web rata-rata common crawl dan jumlah pengguna internet meningkat sebesar 2% hingga 4% setiap tahun, algoritma kehabisan data berkualitas tinggi. Hanya 10% hingga 40% yang dapat digunakan untuk pelatihan tanpa mengorbankan kinerja. Jika tren terus berlanjut, stok informasi publik yang dihasilkan oleh manusia bisa habis pada tahun 2026.
Dengan kemungkinan besar, sektor AI dapat mencapai batas data bahkan lebih cepat. Ledakan AI generatif dalam beberapa tahun terakhir telah meningkatkan ketegangan atas kepemilikan informasi dan pelanggaran hak cipta. Lebih banyak pemilik situs web menggunakan Protokol Penolakan Robot – standar yang menggunakan file robots.txt untuk memblokir web crawler – atau menjelaskan bahwa situs mereka tidak boleh diakses.
Studi tahun 2024 yang diterbitkan oleh kelompok penelitian yang dipimpin oleh MIT mengungkapkan bahwa dataset Colossal Cleaned Common Crawl (C4) – sebuah korpus raun yang besar – pembatasannya semakin meningkat. Lebih dari 28% sumber yang paling aktif dan penting dalam C4 sepenuhnya dibatasi. Selain itu, 45% dari C4 sekarang ditetapkan sebagai off-limits oleh syarat layanan.
Jika perusahaan menghormati pembatasan ini, kebaruan, relevansi, dan ketepatan fakta dunia nyata publik akan menurun, memaksa mereka untuk mengandalkan database buatan. Mereka mungkin tidak memiliki banyak pilihan jika pengadilan memutuskan bahwa alternatif apapun adalah pelanggaran hak cipta.
Masa Depan Data Sintetis dan Halusinasi AI
Saat hukum hak cipta modernisasi dan lebih banyak pemilik situs web menyembunyikan konten mereka dari web crawler, generasi dataset buatan akan menjadi semakin populer. Organisasi harus siap menghadapi ancaman halusinasi.
Dengan demikian, penting bagi perusahaan untuk mempertimbangkan secara seksama penggunaan data sintetis dalam pengembangan kecerdasan buatan mereka. Dengan langkah-langkah yang tepat, data sintetis dapat menjadi alat yang berguna dalam melatih model-model AI yang akurat dan andal. Namun, tanpa pengawasan yang cermat, penggunaan data sintetis dapat memperburuk halusinasi dan bias dalam keputusan yang diambil oleh sistem AI. Oleh karena itu, penting bagi perusahaan untuk mempertimbangkan secara seksama penggunaan data sintetis dalam pengembangan kecerdasan buatan mereka.
Dengan demikian, langkah-langkah berikut dapat membantu perusahaan dalam memanfaatkan potensi positif data sintetis sambil mengurangi risiko halusinasi dan bias dalam kecerdasan buatan mereka:
1. Memastikan kurasi dan kualitas data sintetis sebelum digunakan dalam pelatihan model AI.
2. Melakukan debiasing secara teratur untuk mencegah bias yang mungkin muncul dalam data sintetis.
3. Menggunakan data sintetis sebagai pelengkap, bukan pengganti, untuk data nyata dalam pelatihan model AI.
4. Memahami batasan dan risiko penggunaan data sintetis untuk mengambil keputusan yang lebih bijaksana dalam pengembangan AI.
Dengan langkah-langkah ini, perusahaan dapat memanfaatkan potensi data sintetis secara optimal sambil tetap menjaga keakuratan dan keandalan model AI yang mereka kembangkan. Dengan demikian, penggunaan data sintetis dapat menjadi alat yang berguna dalam pengembangan solusi AI yang inovatif dan efektif.