Disney Research Offers Improved AI-Based Image Compression – But It May Hallucinate Details – Hobicode
‘In our experiments, we show that our proposed model for adaptive quantization can learn to allocate fewer bits to regions of the image that are easier to predict given context, while concentrating more bits on regions that require more contextual information.’
The authors also offer an open-source codebase for the new method, hosted on GitHub, along with a Colab notebook for users to try the method for themselves.
While the authors are enthusiastic about the new approach, they acknowledge the potential for hallucination due to the VAE’s low feature dimension. Despite this limitation, the Disney codec offers a substantial improvement over traditional methods, with the potential for significant savings in storage space and transmission bandwidth.
As AI-based image compression continues to advance, it will be interesting to see how these technologies are adopted and integrated into real-world applications. The trade-offs between image quality, compression efficiency, and computational complexity will continue to shape the development of these systems.
Disney Research has recently developed an improved AI-based image compression system that utilizes diffusion models to remove quantization noise introduced during coding. The system, known as Stable Diffusion V2.1, is based on publicly available code and weights, making it applicable to a wide range of models.
One of the key components of the system is timestep prediction, which determines the optimal number of denoising steps needed to balance efficiency and performance. This prediction takes into account the amount of noise present in the latent embedding.
The model was trained on the Vimeo-90k dataset, with images randomly cropped to 256x256px for each epoch. It was optimized for 300,000 steps at a learning rate of 1e-4 to achieve a balance between generalization and fine detail reproduction.
The system was tested on datasets such as Kodak, CLIC2022, and COCO 30k, using metrics like PSNR, LPIPS, MS-SSIM, and FID. The results showed that the system outperformed rival frameworks based on GANs and diffusion models in terms of realism and distortion metrics.
A user study using the Elo rating system demonstrated that the proposed method significantly outperformed other systems, even when using fewer bits. The system was also found to be twice as fast as a rival framework and more efficient than others that required extensive training.
However, the researchers acknowledge that their system may generate false details in some cases. They recommend referring to the source PDF for a closer examination of the visual comparisons provided in the study.
In conclusion, Disney Research’s AI-based image compression system offers improved performance and efficiency compared to existing frameworks. While it may introduce some false details, the system shows great promise for enhancing image compression technology in the future. Disney Research Menawarkan Peningkatan Kompresi Gambar Berbasis AI – Tetapi Mungkin Menyebabkan Halusinasi Detail
Pada tanggal 30 Oktober 2024, Disney Research mengumumkan sebuah inovasi dalam teknologi kompresi gambar berbasis kecerdasan buatan (AI) yang menjanjikan peningkatan kualitas. Namun, ada sebuah permasalahan yang muncul dalam teknologi ini yang mungkin tidak semua orang menyadari.
Dalam materi yang disediakan, tidak ada sampel yang membahas masalah ini secara mendalam. Namun, masalah ini sebenarnya bukan hanya terjadi pada pendekatan baru yang diperkenalkan oleh Disney, tetapi merupakan efek samping yang tidak terhindarkan dari penggunaan model difusi – suatu arsitektur inovatif dan interpretatif – untuk melakukan kompresi gambar.
Menariknya, hanya lima hari yang lalu, dua peneliti lain dari ETH Zurich menerbitkan sebuah makalah berjudul “Conditional Hallucinations for Image Compression”, yang membahas kemungkinan tingkat “halusinasi yang optimal” dalam sistem kompresi berbasis AI. Mereka berargumen bahwa halusinasi mungkin diinginkan dalam kasus di mana domain gambar bersifat umum (dan, bisa dikatakan, ‘tidak berbahaya’).
Pada dasarnya, penelitian ini mengajukan ide bahwa dalam konten yang bersifat tekstur, seperti rumput, bintik-bintik, atau dinding batu, menghasilkan piksel yang sesuai dengan tekstur yang diberikan lebih penting daripada merekonstruksi nilai piksel secara akurat. Dengan kata lain, menghasilkan sampel dari distribusi tekstur secara umum sudah cukup.
Hal ini membuka diskusi baru tentang bagaimana komunitas fotografi dan kreatif akan menanggapi konsep yang cukup radikal ini tentang “kompresi” gambar. Apakah mereka akan menerima definisi baru tentang kompresi yang lebih “kreatif” dan mewakili, daripada hanya mereproduksi gambar asli secara akurat?
Dalam dunia teknologi, kemajuan selalu diiringi dengan tantangan baru. Meskipun teknologi kompresi gambar berbasis AI menawarkan kemudahan dan efisiensi, kita juga harus mempertimbangkan dampak dan implikasi yang mungkin terjadi, seperti halusinasi detail yang mungkin terjadi.
Sebagai pengguna teknologi, penting bagi kita untuk tetap waspada dan selalu mengikuti perkembangan terbaru dalam industri ini. Kita harus memahami bahwa setiap inovasi pasti memiliki konsekuensi tersendiri, dan kita perlu siap menghadapinya dengan bijaksana.
Dengan demikian, kita dapat melangkah maju menuju masa depan yang lebih cerah dan terkoneksi dengan teknologi tanpa kehilangan kontrol atas dampaknya pada kehidupan kita sehari-hari. Semoga inovasi dalam teknologi kompresi gambar berbasis AI ini dapat memberikan manfaat yang nyata bagi kita semua.
Gambar terkait:
[masukkan gambar yang sesuai dengan judul artikel] Disney Research telah mengembangkan metode baru untuk kompresi gambar berbasis kecerdasan buatan (AI) yang menjanjikan peningkatan kualitas gambar yang dikompresi. Namun, metode ini juga memiliki potensi untuk menciptakan detail yang sebenarnya tidak ada dalam gambar.
Metode kompresi gambar tradisional sering kali menghasilkan gambar yang kabur atau kehilangan detail saat ukurannya dikurangi. Namun, dengan menggunakan teknologi AI, peneliti Disney Research telah berhasil menciptakan algoritma kompresi yang dapat mempertahankan detail penting dalam gambar, bahkan saat ukurannya dikurangi secara signifikan.
Salah satu keunggulan utama dari metode ini adalah kemampuannya untuk memahami konten gambar dan memprioritaskan elemen-elemen penting yang harus dipertahankan selama proses kompresi. Dengan demikian, gambar yang dikompresi menggunakan teknologi ini cenderung lebih jelas dan mudah dikenali daripada metode kompresi tradisional.
Namun, ada juga potensi downside dari penggunaan AI dalam kompresi gambar. Beberapa kasus telah dilaporkan di mana algoritma AI cenderung “halusinasi” detail yang sebenarnya tidak ada dalam gambar asli. Hal ini dapat menyebabkan distorsi atau keanehan dalam gambar yang dikompresi, yang mungkin sulit untuk dideteksi oleh mata manusia.
Meskipun demikian, teknologi kompresi gambar berbasis AI yang dikembangkan oleh Disney Research menawarkan potensi untuk mengubah cara kita memproses dan menyimpan gambar secara digital. Dengan kemampuannya untuk mempertahankan detail dalam gambar yang dikompresi, teknologi ini dapat membantu menghemat ruang penyimpanan dan mempercepat proses transfer gambar di berbagai platform digital.
Dengan demikian, kita dapat melihat perkembangan yang menarik dalam bidang kompresi gambar berkat kemajuan teknologi AI. Namun, penting untuk tetap waspada terhadap potensi distorsi atau keanehan yang mungkin terjadi dalam gambar yang dikompresi menggunakan metode AI.