The study found that all three RAG systems tested – You Chat, Bing Copilot, and Perplexity – exhibited significant shortcomings in various areas, raising concerns about the reliability and accuracy of the information provided by these systems. Some of the major problems identified in the study include a lack of objective detail in generated answers, reinforcement of user bias, simplistic language, misattributing and mis-citing sources, cherry-picking information, omitting citations, and using unreliable sources.
The study involved 21 experts in artificial intelligence, healthcare, medicine, applied sciences, and education and social sciences, who interacted with the RAG systems and shared their thoughts out loud to clarify their rational schema. The researchers automated the study using browser control suites, which revealed that none of the RAG systems met acceptable performance across most metrics.
The authors argue that both new and experienced users should exercise caution when using RAG systems and propose a new system of metrics to address the identified shortcomings. They also advocate for legislation and governmental policy to regulate agent-aided AI search interfaces, given the growing public usage of these systems.
The study, titled “Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses,” comes from researchers across Pennsylvania State University and Salesforce. It highlights the limitations of RAG systems, including their tendency to hallucinate information, lack of fact-checking capabilities, bias towards pre-trained data, and people-pleasing behavior.
The authors caution against the reliance on RAG systems, particularly with the release of OpenAI’s ‘SearchGPT’ product, which they believe will further encourage user adoption despite the inherent shortcomings. They emphasize the need to understand the impact of these systems and the potential consequences of limiting access to diverse answers and perpetuating selection biases.
Overall, the study raises significant concerns about the performance of RAG systems and calls for greater technical oversight, user caution, and regulatory measures to ensure the reliability and accuracy of information provided by these systems. Baru-baru ini, sebuah penelitian baru telah menemukan enam belas masalah utama dengan sistem RAG (Retrieve, Answer, Generate), termasuk perpleksitas. Penelitian ini memfokuskan pada penggalian dan verifikasi pertanyaan dan jawaban berbasis fakta, dengan solusi empiris potensial. Fase kedua berkaitan dengan Pemulihan Informasi Debat, yang menangani masalah subjektif, termasuk ekologi, vegetarianisme, dan politik.
Studi ini dilakukan dengan menggunakan tiga mesin jawaban yang dapat diakses secara publik: You Chat, Bing Copilot, dan Perplexity. Mayoritas peserta studi sudah menggunakan sistem RAG, dengan frekuensi yang berbeda-beda. Peserta diminta untuk merumuskan pertanyaan mereka melalui sistem RAG dan mesin pencari konvensional seperti Google.
Salah satu masalah utama yang ditemukan dalam studi ini adalah kurangnya detail objektif dalam jawaban yang diberikan oleh sistem. Peserta studi mengamati bahwa jawaban yang diberikan cenderung kurang detail dan kurang menunjukkan sudut pandang yang holistik. Selain itu, bahasa yang digunakan dalam jawaban seringkali terlalu percaya diri, bahkan untuk masalah subjektif.
Masalah lain yang ditemukan adalah pengutipan sumber yang salah, di mana peserta studi menemukan bahwa beberapa jawaban tidak sesuai dengan sumber yang dikutip. Selain itu, sistem RAG cenderung memilih informasi yang sesuai dengan pertanyaan yang diajukan, tanpa memberikan gambaran yang utuh.
Dalam fase kedua studi, para peneliti menggunakan skrip berbasis browser untuk mendapatkan tanggapan dari tiga mesin RAG yang diteliti. Mereka kemudian menggunakan sistem LLM (GPT-4o) untuk menganalisis jawaban dari sistem-sistem ini. Hasilnya menunjukkan bahwa mesin Perplexity cenderung menghasilkan jawaban yang cenderung satu sisi, sementara mesin lainnya memiliki tingkat keberagaman jawaban yang lebih baik.
Meskipun masih banyak hal yang perlu diperbaiki dalam sistem RAG, penelitian ini memberikan wawasan penting tentang masalah utama yang perlu diperhatikan dalam pengembangan sistem-sistem ini. Dengan demikian, penelitian ini dapat menjadi acuan bagi peneliti dan pengembang teknologi untuk meningkatkan kualitas dan akurasi sistem RAG di masa depan. Penelitian Baru Menemukan Enam Belas Masalah Utama Dengan Sistem RAG, Termasuk Perplexity
Sebuah penelitian terbaru menemukan adanya enam belas masalah utama dengan sistem RAG (Retrieve, Answer, Generate), yang termasuk masalah seperti perplexity. Penelitian ini menyoroti berbagai isu yang muncul dalam penggunaan sistem RAG, yang sering digunakan dalam pengembangan mesin jawaban otomatis.
Salah satu temuan utama dari penelitian ini adalah bahwa peningkatan panjang jawaban tidak selalu meningkatkan keragaman jawaban. Para peneliti juga mencatat bahwa Perplexity cenderung menggunakan bahasa yang percaya diri (90% dari jawaban), sedangkan sistem lain cenderung menggunakan bahasa yang lebih berhati-hati dan kurang percaya diri ketika konten subjektif terlibat.
You Chat adalah satu-satunya kerangka kerja RAG yang berhasil mencapai nol sumber tanpa kutipan untuk sebuah jawaban, sementara Perplexity mencapai 8% dan Bing Chat mencapai 36%. Semua model menunjukkan ‘proporsi signifikan’ pernyataan tanpa dukungan, dan paper ini menyatakan bahwa “kerangka kerja RAG diiklankan untuk mengatasi perilaku halusinasi dari LLMs dengan memaksa LLM menghasilkan jawaban yang didasarkan pada dokumen sumber, namun hasilnya menunjukkan bahwa mesin jawaban berbasis RAG masih menghasilkan jawaban yang mengandung sebagian besar pernyataan yang tidak didukung oleh sumber yang mereka sediakan.”
Selain itu, semua sistem yang diuji mengalami kesulitan dalam mendukung pernyataan mereka dengan kutipan: “You.Com dan Bing Chat sedikit lebih baik daripada Perplexity, dengan sekitar dua pertiga kutipan menunjuk ke sumber yang mendukung pernyataan yang dikutip, dan Perplexity tampil lebih buruk dengan lebih dari setengah kutipan yang tidak akurat. Hasil ini mengejutkan: kutipan tidak hanya tidak benar untuk pernyataan yang tidak didukung oleh sumber manapun, tetapi kami menemukan bahwa bahkan ketika ada sumber yang mendukung pernyataan, semua mesin masih sering mengutip sumber yang salah, melewatkan kesempatan untuk memberikan informasi yang benar kepada pengguna.”
Para penulis menyimpulkan bahwa “tidak ada satu pun mesin jawaban yang mencapai kinerja baik pada sebagian besar metrik, menyoroti ruang besar untuk perbaikan dalam mesin jawaban.”
Dengan temuan-temuan ini, penting bagi pengembang teknologi untuk terus melakukan penelitian dan inovasi dalam pengembangan sistem RAG guna meningkatkan kualitas jawaban yang diberikan kepada pengguna. Adanya masalah seperti perplexity dan kurangnya dukungan pernyataan dengan kutipan yang akurat menunjukkan bahwa masih ada banyak pekerjaan yang perlu dilakukan untuk meningkatkan kinerja sistem ini.
Dalam menghadapi tantangan ini, para pengembang diharapkan dapat memperbaiki sistem RAG mereka dengan cara yang mampu mengatasi masalah yang diidentifikasi dalam penelitian ini. Dengan demikian, pengguna dapat mendapatkan jawaban yang lebih akurat dan dapat dipercaya dari mesin jawaban otomatis yang menggunakan sistem RAG.
Gambar terkait:
[masukkan gambar yang sesuai dengan judul artikel]
Dengan demikian, penelitian ini memberikan wawasan yang berharga bagi pengembang dan peneliti dalam bidang pengembangan sistem RAG, serta menunjukkan pentingnya terus melakukan penelitian untuk meningkatkan kualitas dan kinerja mesin jawaban otomatis. Semoga temuan ini dapat menjadi landasan untuk pengembangan sistem RAG yang lebih baik di masa depan.