Data kotor atau dirty data merupakan masalah yang sering terjadi dalam pengembangan kecerdasan buatan (AI). Dalam sebuah studi oleh Massachusetts Institute of Technology (MIT) pada tahun 2017, diperkirakan bahwa data yang buruk dapat menyebabkan kerugian perusahaan sebesar 15% hingga 25% dari pendapatannya. Kemudian, pada tahun 2021, Gartner memperkirakan bahwa data yang buruk dapat menyebabkan kerugian rata-rata sebesar $12.9 juta setiap tahun bagi perusahaan.
Data yang kotor, yang dapat berupa data yang tidak lengkap, tidak akurat, atau tidak konsisten, dapat memiliki efek berantai pada sistem AI. Ketika model-model AI dilatih dengan data berkualitas rendah, hasil prediksi dan wawasan yang dihasilkan menjadi tidak akurat. Hal ini tidak hanya merusak efektivitas aplikasi AI, tetapi juga membawa risiko signifikan bagi bisnis yang mengandalkan teknologi ini untuk pengambilan keputusan kritis.
Masalah ini menciptakan masalah besar bagi tim ilmu data perusahaan yang harus semakin fokus pada pembersihan dan pengorganisasian data yang terbatas. Dalam sebuah laporan terbaru mengenai keadaan teknik yang dilakukan oleh DBT, 57% profesional ilmu data menyebutkan bahwa kualitas data yang buruk merupakan masalah utama dalam pekerjaan mereka.
Dampak dari Data yang Buruk dalam Pengembangan AI tercermin dalam tiga cara utama:
1. Ketidakakuratan dan Ketidakandalan yang Berkurang: Model-model AI bergantung pada pola dan korelasi yang diperoleh dari data. Ketika data masukan tidak baik, model-model tersebut menghasilkan output yang tidak dapat diandalkan, yang dikenal sebagai “halusinasi AI.” Hal ini dapat menyebabkan strategi yang salah, kegagalan produk, dan kehilangan kepercayaan pelanggan.
2. Penguatan Bias: Data yang buruk seringkali mengandung bias yang, jika tidak diperiksa, akan tertanam dalam algoritma AI. Hal ini dapat mengakibatkan praktik diskriminatif, terutama dalam area sensitif seperti perekrutan, pemberian pinjaman, dan penegakan hukum. Misalnya, jika sebuah alat rekrutmen AI dilatih dengan data rekrutmen yang bias, ia mungkin akan cenderung mendukung demografi tertentu daripada yang lain.
3. Peningkatan Biaya Operasional: Sistem AI yang cacat membutuhkan penyetelan dan pelatihan ulang yang konstan, yang mengonsumsi waktu dan sumber daya tambahan. Perusahaan mungkin menemukan diri mereka dalam siklus yang terus-menerus memperbaiki kesalahan daripada berinovasi dan memperbaiki.
Kondisi ini menimbulkan keprihatinan besar bagi perusahaan yang harus terus fokus pada membersihkan dan mengorganisir data mereka agar sesuai dengan standar yang diperlukan untuk pelatihan model-model AI. Untuk mengatasi masalah ini, solusi Data-as-a-Service (DaaS) semakin dicari untuk melengkapi dan meningkatkan data first-party untuk tujuan pelatihan. Nilai sejati dari DaaS adalah data itu sendiri telah dinormalisasi, dibersihkan, dan dievaluasi untuk berbagai kasus penggunaan fidelitas dan komersial, serta standardisasi dari proses untuk menyusun data tersebut. Seiring dengan perkembangan industri ini, kita dapat memperkirakan bahwa standarisasi ini akan mulai muncul di seluruh industri data.
Dengan terus merambah berbagai industri, pentingnya kualitas data hanya akan meningkat. Perusahaan yang memprioritaskan data bersih akan mendapatkan keunggulan kompetitif, sementara mereka yang mengabaikannya akan segera tertinggal. Biaya tinggi dari data kotor dalam pengembangan AI merupakan masalah yang mendesak yang tidak bisa diabaikan. Kualitas data yang buruk merusak dasar dari sistem AI, menghasilkan wawasan yang salah, meningkatkan biaya, dan berpotensi menimbulkan masalah etika. Dengan mengadopsi strategi manajemen data yang komprehensif dan menciptakan budaya yang menghargai integritas data, organisasi dapat mengurangi risiko-risiko ini.
Di era di mana data adalah minyak baru, memastikan kebersihannya bukan hanya kebutuhan teknis tetapi juga sebuah keharusan strategis. Bisnis yang berinvestasi dalam data bersih saat ini akan menjadi yang memimpin di garis depan inovasi di masa depan.