Monetisasi Penelitian untuk Pelatihan AI: Risiko dan Praktik Terbaik
Seiring dengan meningkatnya permintaan akan AI generatif, kebutuhan akan data berkualitas tinggi untuk melatih sistem ini juga semakin meningkat. Penerbit ilmiah telah mulai memonetisasi konten penelitian mereka untuk menyediakan data pelatihan bagi model bahasa besar (LLM). Meskipun perkembangan ini menciptakan sumber pendapatan baru bagi penerbit dan memberdayakan AI generatif untuk penemuan ilmiah, hal ini menimbulkan pertanyaan kritis tentang integritas dan keandalan penelitian yang digunakan. Hal ini menimbulkan pertanyaan penting: Apakah dataset yang dijual dapat dipercaya, dan apa implikasi praktik ini bagi komunitas ilmiah dan model AI generatif?
Meningkatnya Perjanjian Penelitian yang Dimonetisasi
Penerbit akademik besar, termasuk Wiley, Taylor & Francis, dan lainnya, telah melaporkan pendapatan substansial dari lisensi konten mereka kepada perusahaan teknologi yang mengembangkan model AI generatif. Sebagai contoh, Wiley mengungkapkan pendapatan lebih dari $40 juta dari kesepakatan semacam itu hanya tahun ini. Perjanjian-perjanjian ini memungkinkan perusahaan AI untuk mengakses dataset ilmiah yang beragam dan luas, yang diharapkan dapat meningkatkan kualitas alat AI mereka.
Pitch dari penerbit cukup jelas: lisensi memastikan model AI yang lebih baik, memberikan manfaat bagi masyarakat sambil memberikan penghargaan kepada penulis dengan royalti. Model bisnis ini menguntungkan baik perusahaan teknologi maupun penerbit. Namun, tren meningkatnya moneterisasi pengetahuan ilmiah memiliki risiko, terutama ketika penelitian yang meragukan menyusup ke dalam dataset pelatihan AI ini.
Bayangan Penelitian Palsu
Komunitas ilmiah tidak asing dengan isu penelitian yang curang. Studi menunjukkan bahwa banyak temuan yang dipublikasikan cacat, bias, atau tidak dapat diandalkan. Survei tahun 2020 menemukan bahwa hampir separuh peneliti melaporkan masalah seperti pelaporan data yang selektif atau desain studi lapangan yang buruk. Pada tahun 2023, lebih dari 10.000 makalah ditarik karena hasil yang dipalsukan atau tidak dapat diandalkan, sebuah angka yang terus meningkat setiap tahun. Para ahli percaya bahwa angka ini mewakili puncak gunung es, dengan banyak studi meragukan yang beredar di basis data ilmiah.
Krisis ini terutama dipicu oleh "pabrik kertas", organisasi bayangan yang memproduksi studi yang difabrikasi, seringkali sebagai respons terhadap tekanan akademis di wilayah seperti Tiongkok, India, dan Eropa Timur. Diperkirakan sekitar 2% dari pengiriman jurnal secara global berasal dari pabrik kertas. Makalah-makalah palsu ini dapat menyerupai penelitian yang sah tetapi dipenuhi dengan data fiktif dan kesimpulan yang tidak berdasar. Mengkhawatirkan, makalah-makalah semacam itu lolos dari tinjauan sejawat dan akhirnya muncul di jurnal-jurnal terkemuka, mengompromikan keandalan wawasan ilmiah. Sebagai contoh, selama pandemi COVID-19, studi-studi yang cacat tentang ivermectin secara salah menggambarkan efektivitasnya sebagai pengobatan, menimbulkan kebingungan dan menunda respons kesehatan masyarakat yang efektif. Contoh ini menyoroti potensi bahaya menyebarkan penelitian yang tidak dapat diandalkan, di mana hasil yang cacat dapat memiliki dampak yang signifikan.
Konsekuensi untuk Pelatihan AI dan Kepercayaan
Implikasinya sangat dalam saat LLM melatih pada database yang mengandung penelitian palsu atau berkualitas rendah. Model AI menggunakan pola dan hubungan dalam data pelatihan mereka untuk menghasilkan output. Jika data inputnya tercemar, outputnya bisa memperpetuasi ketidakakuratan atau bahkan memperbesarnya. Risiko ini terutama tinggi di bidang seperti kedokteran, di mana wawasan yang dihasilkan AI yang salah bisa memiliki konsekuensi yang mengancam nyawa. Selain itu, masalah ini mengancam kepercayaan publik terhadap dunia akademis dan AI. Saat penerbit terus membuat kesepakatan, mereka harus mengatasi kekhawatiran tentang kualitas data yang dijual. Kegagalan untuk melakukannya dapat merusak reputasi komunitas ilmiah dan menggoyahkan potensi manfaat sosial AI.
Memastikan Data yang Dapat Dipercaya untuk AI
Mengurangi risiko penelitian yang cacat mengganggu pelatihan AI memerlukan upaya bersama dari penerbit, perusahaan AI, pengembang, peneliti, dan masyarakat luas. Penerbit harus meningkatkan proses tinjauan sejawat mereka untuk menangkap studi yang tidak dapat diandalkan sebelum masuk ke dataset pelatihan. Menawarkan imbalan yang lebih baik bagi para peninjau dan menetapkan standar yang lebih tinggi dapat membantu. Proses tinjauan terbuka kritis di sini. Ini membawa lebih banyak transparansi dan akuntabilitas, membantu membangun kepercayaan dalam penelitian.
Perusahaan AI harus lebih berhati-hati dalam memilih dengan siapa mereka bekerja saat mengumpulkan penelitian untuk pelatihan AI. Memilih penerbit dan jurnal dengan reputasi kuat untuk penelitian berkualitas tinggi dan teruji adalah kunci. Dalam konteks ini, penting untuk memperhatikan catatan penerbit, seperti seberapa sering mereka menarik kembali makalah atau seberapa terbuka mereka tentang proses tinjauan mereka. Memilih secara selektif meningkatkan keandalan data dan membangun kepercayaan di antara komunitas AI dan peneliti.
Pengembang AI harus bertanggung jawab atas data yang mereka gunakan. Ini berarti bekerja dengan ahli, memeriksa penelitian dengan hati-hati, dan membandingkan hasil dari beberapa studi. Alat AI itu sendiri juga dapat dirancang untuk mengidentifikasi data yang mencurigakan dan mengurangi risiko penelitian yang meragukan menyebar lebih jauh.
Transparansi juga merupakan faktor penting. Penerbit dan perusahaan AI harus secara terbuka membagikan detail tentang bagaimana penelitian digunakan dan di mana royalti pergi. Alat seperti Pelacak Perjanjian Lisensi AI Generatif menunjukkan harapan namun membutuhkan adopsi yang lebih luas. Peneliti juga harus memiliki suara dalam bagaimana karya mereka digunakan. Kebijakan pilihan, seperti yang dari Cambridge University Press, menawarkan kontrol kepada penulis atas kontribusi mereka. Hal ini membangun kepercayaan, memastikan keadilan, dan membuat penulis aktif berpartisipasi dalam proses ini.
Selain itu, akses terbuka terhadap penelitian berkualitas tinggi harus didorong untuk memastikan inklusivitas dan keadilan dalam pengembangan AI. Pemerintah, lembaga nirlaba, dan pemain industri dapat mendanai inisiatif akses terbuka, mengurangi ketergantungan pada penerbit komersial untuk dataset pelatihan yang kritis. Di atas itu, industri AI memerlukan aturan yang jelas untuk mendapatkan data secara etis. Dengan fokus pada penelitian yang dapat diandalkan dan berkualitas tinggi, kita dapat membangun alat AI yang lebih baik, melindungi integritas ilmiah, dan menjaga kepercayaan publik terhadap sains dan teknologi.
Kesimpulan
Monetisasi penelitian untuk pelatihan AI menawarkan peluang dan tantangan. Meskipun lisensi konten akademis memungkinkan pengembangan model AI yang lebih kuat, hal ini juga menimbulkan kekhawatiran tentang integritas dan keandalan data yang digunakan. Penelitian yang cacat, termasuk dari "pabrik kertas," dapat merusak dataset pelatihan AI, menyebabkan ketidakakuratan yang mungkin menggoyahkan kepercayaan publik dan manfaat potensial AI. Untuk memastikan model AI dibangun di atas data yang dapat dipercaya, penerbit, perusahaan AI, dan pengembang harus bekerja sama untuk meningkatkan proses tinjauan sejawat, meningkatkan transparansi, dan memprioritaskan penelitian berkualitas tinggi dan teruji. Dengan begitu, kita dapat menjaga masa depan AI dan menjunjung integritas komunitas ilmiah.
Tag:
- AI
- Penelitian
- Dataset
Referensi:
- Nature: Wiley, Taylor & Francis report substantial revenues from licensing content for AI training
- The Guardian: The situation has become appalling: fake scientific papers push research credibility to crisis point
- Science Business: US lawmakers turn attention to plague of fake journal papers
- University of Oxford: New study shows ivermectin lacks meaningful benefits in COVID-19 treatment
- MDPI Blog: AI and Open Access