Kirill Solodskih, Co-Founder and CEO of TheStage AI – Interview Series
Kirill Solodskih, PhD, adalah Co-Founder dan CEO dari TheStage AI, serta seorang peneliti dan wirausahawan AI berpengalaman dengan lebih dari satu dekade pengalaman dalam mengoptimalkan jaringan saraf untuk aplikasi bisnis dunia nyata. Pada tahun 2024, ia mendirikan TheStage AI, yang berhasil mendapatkan pendanaan sebesar $4,5 juta untuk mengotomatisasi sepenuhnya percepatan jaringan saraf di berbagai platform perangkat keras.
Sebelumnya, sebagai Tim Lead di Huawei, Kirill memimpin percepatan aplikasi kamera AI untuk Qualcomm NPUs, berkontribusi pada kinerja smartphone P50 dan P60 serta memperoleh sejumlah paten untuk inovasinya. Penelitiannya telah dipamerkan di konferensi-konferensi terkemuka seperti CVPR dan ECCV, di mana ia menerima penghargaan dan pengakuan industri secara luas. Dia juga menjadi tuan rumah podcast tentang optimisasi dan inferensi AI.
Apa yang menginspirasi Anda untuk mendirikan TheStage AI, dan bagaimana Anda beralih dari dunia akademis dan penelitian ke optimisasi inferensi sebagai pendiri startup?
Landasan bagi apa yang akhirnya menjadi TheStage AI dimulai dengan pekerjaan saya di Huawei, di mana saya sangat terlibat dalam mengotomatisasi implementasi dan mengoptimalkan jaringan saraf. Inisiatif-inisiatif ini menjadi dasar bagi beberapa inovasi terobosan kami, dan di situlah saya melihat tantangan sesungguhnya. Melatih model adalah satu hal, tetapi membuatnya berjalan secara efisien di dunia nyata dan membuatnya mudah diakses oleh pengguna adalah hal lain. Implementasi adalah bottleneck yang menghambat banyak gagasan hebat untuk diwujudkan. Untuk membuat sesuatu sepraktis ChatGPT, ada banyak tantangan di belakang layar yang terlibat. Dari sudut pandang teknis, optimisasi jaringan saraf adalah tentang meminimalkan parameter sambil menjaga kinerja tinggi. Itu adalah masalah matematika yang sulit dengan banyak ruang untuk inovasi.
Optimisasi inferensi manual telah lama menjadi bottleneck dalam AI. Bisakah Anda menjelaskan bagaimana TheStage AI mengotomatisasi proses ini dan mengapa ini merupakan perubahan permainan?
TheStage AI menangani bottleneck utama dalam AI: kompresi dan percepatan manual jaringan saraf. Jaringan saraf memiliki miliaran parameter, dan menentukan mana yang harus dihilangkan untuk kinerja yang lebih baik hampir tidak mungkin dilakukan secara manual. ANNA (Automated Neural Networks Analyzer) mengotomatisasi proses ini, mengidentifikasi lapisan mana yang harus dikecualikan dari optimisasi, mirip dengan bagaimana kompresi ZIP pertama kali diotomatisasi.
Ini mengubah permainan dengan membuat adopsi AI lebih cepat dan terjangkau. Alih-alih mengandalkan proses manual yang mahal, startup dapat mengoptimalkan model secara otomatis. Teknologi ini memberikan bisnis pandangan yang jelas terhadap kinerja dan biaya, memastikan efisiensi dan skalabilitas tanpa tebakan.
TheStage AI mengklaim dapat mengurangi biaya inferensi hingga 5x — apa yang membuat teknologi optimisasi Anda begitu efektif dibandingkan dengan metode tradisional?
TheStage AI memotong biaya output hingga 5x dengan pendekatan optimisasi yang melampaui metode tradisional. Alih-alih menerapkan algoritma yang sama ke seluruh jaringan saraf, ANNA memecahnya menjadi lapisan-lapisan kecil dan memutuskan algoritma mana yang akan diterapkan untuk setiap bagian guna memberikan kompresi yang diinginkan sambil memaksimalkan kualitas model. Dengan menggabungkan heuristik matematis cerdas dengan pendekatan yang efisien, pendekatan kami sangat skalabel dan membuat adopsi AI lebih mudah bagi bisnis dari berbagai ukuran. Kami juga mengintegrasikan pengaturan kompilator yang fleksibel untuk mengoptimalkan jaringan untuk perangkat keras tertentu seperti iPhone atau GPU NVIDIA. Ini memberi kami lebih banyak kontrol untuk menyesuaikan kinerja, meningkatkan kecepatan tanpa kehilangan kualitas.
Bagaimana percepatan inferensi TheStage AI dibandingkan dengan kompilator asli PyTorch, dan apa keuntungan yang ditawarkannya bagi pengembang AI?
TheStage AI mempercepat output jauh melampaui kompilator PyTorch asli. PyTorch menggunakan metode kompilasi "just-in-time", yang mengompilasi model setiap kali dijalankan. Hal ini menyebabkan waktu startup yang lama, kadang-kadang memakan waktu beberapa menit atau bahkan lebih lama. Dalam lingkungan yang dapat diskalakan, hal ini dapat menciptakan ketidak-efisienan, terutama ketika GPU baru harus diaktifkan untuk menangani peningkatan beban pengguna, menyebabkan penundaan yang memengaruhi pengalaman pengguna.
Sebaliknya, TheStage AI memungkinkan model untuk di-pre-compile, sehingga begitu model siap, ia dapat dideploy secara instan. Hal ini mengarah pada rollout yang lebih cepat, peningkatan efisiensi layanan, dan penghematan biaya. Pengembang dapat mendeploy dan menskalakan model AI lebih cepat, tanpa bottleneck dari kompilasi tradisional, menjadikannya lebih efisien dan responsif untuk kasus penggunaan yang membutuhkan tingkat yang tinggi.
Dapatkah Anda berbagi lebih banyak tentang toolkit QLIP TheStage AI dan bagaimana ia meningkatkan kinerja model sambil mempertahankan kualitasnya?
QLIP, toolkit TheStage AI, adalah sebuah perpustakaan Python yang menyediakan serangkaian primitif penting untuk dengan cepat membangun algoritma optimisasi baru yang disesuaikan dengan berbagai perangkat keras, seperti GPU dan NPU. Toolkit ini mencakup komponen-komponen seperti kuantisasi, pemangkasan, spesifikasi, kompilasi, dan pelayanan, semua hal yang penting untuk mengembangkan sistem AI yang efisien dan dapat diskalakan.
Yang membedakan QLIP adalah fleksibilitasnya. Ini memungkinkan insinyur AI untuk prototipe dan mengimplementasikan algoritma baru dengan hanya beberapa baris kode. Sebagai contoh, sebuah makalah konferensi AI terbaru tentang kuantisasi jaringan saraf dapat diubah menjadi algoritma yang berfungsi menggunakan primitif QLIP dalam hitungan menit. Ini memudahkan pengembang untuk mengintegrasikan penelitian terbaru ke dalam model mereka tanpa terkendala oleh kerangka kerja yang kaku.
Berbeda dengan kerangka kerja open-source tradisional yang membatasi Anda pada kumpulan algoritma yang tetap, QLIP memungkinkan siapa pun untuk menambahkan teknik optimisasi baru. Fleksibilitas ini membantu tim tetap maju dalam lanskap AI yang berkembang dengan cepat, meningkatkan kinerja sambil memastikan fleksibilitas untuk inovasi di masa depan.
Anda telah berkontribusi pada kerangka kuantisasi AI yang digunakan dalam kamera Huawei P50 & P60. Bagaimana pengalaman tersebut membentuk pendekatan Anda terhadap optimisasi AI?
Pengalaman saya dalam mengembangkan kerangka kuantisasi AI untuk kamera Huawei P50 dan P60 memberi saya wawasan berharga tentang bagaimana optimisasi dapat disederhanakan dan diskalakan. Ketika saya pertama kali mulai dengan PyTorch, bekerja dengan grafik eksekusi lengkap jaringan saraf terasa kaku, dan algoritma kuantisasi harus diimplementasikan secara manual, lapisan demi lapisan. Di Huawei, saya membangun sebuah kerangka kerja yang mengotomatisasi proses tersebut. Anda hanya perlu memasukkan model, dan itu akan secara otomatis menghasilkan kode untuk kuantisasi, menghilangkan pekerjaan manual.
Hal ini membuat saya menyadari bahwa otomatisasi dalam optimisasi AI adalah tentang memungkinkan kecepatan tanpa mengorbankan kualitas. Salah satu algoritma yang saya kembangkan dan patenkan menjadi sangat penting bagi Huawei, terutama ketika mereka harus beralih dari prosesor Kirin ke Qualcomm karena sanksi. Ini memungkinkan tim dengan cepat menyesuaikan jaringan saraf ke arsitektur Qualcomm tanpa kehilangan kinerja atau akurasi.
Dengan menyederhanakan dan mengotomatisasi proses ini, kami berhasil memangkas waktu pengembangan dari lebih dari satu tahun menjadi hanya beberapa bulan. Hal ini berdampak besar pada produk yang digunakan oleh jutaan orang dan membentuk pendekatan saya terhadap optimisasi, fokus pada kecepatan, efisiensi, dan kerugian kualitas minimal. Itulah pola pikir yang saya bawa ke ANNA hari ini.
Penelitian Anda telah dipamerkan di CVPR dan ECCV — apa beberapa terobosan kunci dalam efisiensi AI yang paling Anda banggakan?
Ketika saya ditanya tentang pencapaian saya dalam efisiensi AI, saya selalu teringat pada makalah kami yang terpilih untuk presentasi lisan di CVPR 2023. Dipilih untuk presentasi lisan di konferensi seperti itu jarang terjadi, karena hanya ada 12 makalah yang terpilih. Hal ini menambah fakta bahwa Generative AI biasanya mendominasi sorotan, dan makalah kami mengambil pendekatan yang berbeda, berfokus pada sisi matematis, khususnya analisis dan kompresi jaringan saraf.
Kami mengembangkan sebuah metode yang membantu kami memahami berapa banyak parameter yang sebenarnya diperlukan oleh jaringan saraf untuk beroperasi secara efisien. Dengan menerapkan teknik dari analisis fungsional dan beralih dari formulasi diskrit ke formulasi kontinu, kami berhasil mencapai hasil kompresi yang baik sambil tetap memiliki kemampuan untuk mengintegrasikan perubahan ini kembali ke dalam model. Makalah tersebut juga memperkenalkan beberapa algoritma baru yang belum pernah digunakan oleh komunitas dan menemukan aplikasi lebih lanjut.
Ini adalah salah satu makalah pertama saya di bidang AI, dan yang lebih penting, ini adalah hasil dari upaya bersama tim kami, termasuk para pendiri saya. Ini adalah tonggak penting bagi kami semua.
Dapatkah Anda menjelaskan bagaimana Jaringan Saraf Integral (INNs) bekerja dan mengapa mereka merupakan inovasi penting dalam pembelajaran mendalam?
Jaringan saraf tradisional menggunakan matriks tetap, mirip dengan tabel Excel, di mana ukuran dan parameter sudah ditentukan sebelumnya. Namun, INNs menggambarkan jaringan sebagai fungsi kontinu, menawarkan fleksibilitas yang jauh lebih besar. Bayangkan seperti selimut dengan pin pada ketinggian yang berbeda, dan ini mewakili gelombang kontinu.
Yang membuat INNs menarik adalah kemampuannya untuk secara dinamis "mengompres" atau "mengembang" berdasarkan sumber daya yang tersedia, mirip dengan bagaimana sinyal analog diubah menjadi suara. Anda dapat menyusutkan jaringan tanpa mengorbankan kualitas, dan ketika diperlukan, memperluasnya kembali tanpa harus melatih ulang.
Kami telah menguji ini, dan sementara metode kompresi tradisional menyebabkan kerugian kualitas yang signifikan, INNs tetap mempertahankan kualitas yang mendekati asli bahkan di bawah kompresi ekstrim. Matematika di baliknya lebih tidak konvensional bagi komunitas AI, tetapi nilai sebenarnya terletak pada kemampuannya untuk memberikan hasil yang solid dan praktis dengan usaha minimal.
TheStage AI telah bekerja pada algoritma pelurusan kuantum — bagaimana Anda melihat peran komputasi kuantum dalam optimisasi AI di masa depan?
Ketika datang ke komputasi kuantum dan peranannya dalam optimisasi AI, intinya adalah bahwa sistem kuantum menawarkan pendekatan yang benar-benar berbeda untuk menyelesaikan masalah seperti optimisasi. Meskipun kami tidak menciptakan algoritma pelurusan kuantum dari nol, perusahaan seperti D-Wave menyediakan perpustakaan Python untuk membangun algoritma kuantum khusus untuk tugas optimisasi diskrit, yang ideal untuk komputer kuantum.
Ide di sini adalah bahwa kita tidak langsung memuat jaringan saraf ke dalam komputer kuantum. Hal itu tidak mungkin dengan arsitektur saat ini. Sebaliknya, kita memperkirakan bagaimana jaringan saraf berperilaku di bawah berbagai jenis degradasi, membuat mereka sesuai dengan sistem yang dapat diproses oleh chip kuantum.
Di masa depan, sistem kuantum dapat memperbesar dan mengoptimalkan jaringan dengan presisi yang sulit ditandingi oleh sistem tradisional. Keuntungan dari sistem kuantum terletak pada paralelisme bawaannya, sesuatu yang sistem klasik hanya bisa mensimulasikan dengan menggunakan sumber daya tambahan. Ini berarti komputasi kuantum bisa secara signifikan mempercepat proses optimisasi, terutama saat kita menemukan cara memodelkan jaringan yang lebih besar dan lebih kompleks secara efektif.
Potensi sebenarnya terletak pada penggunaan komputasi kuantum untuk menyelesaikan tugas optimisasi yang besar dan rumit serta memecah parameter menjadi kelompok-kelompok yang lebih kecil dan lebih mudah dikelola. Dengan teknologi seperti komputasi kuantum dan optik, ada kemungkinan besar untuk mengoptimalkan AI yang jauh melampaui apa yang dapat ditawarkan oleh komputasi tradisional.
Apa visi jangka panjang Anda untuk TheStage AI? Di mana Anda melihat optimisasi inferensi akan menuju dalam 5-10 tahun ke depan?
Jangka panjang, TheStage AI bertujuan untuk menjadi Model Hub global di mana siapa pun dapat dengan mudah mengakses jaringan saraf yang telah dioptimalkan dengan karakteristik yang diinginkan, baik untuk smartphone atau perangkat lain. Tujuannya adalah menawarkan pengalaman drag-and-drop, di mana pengguna memasukkan parameter mereka dan sistem secara otomatis menghasilkan jaringan. Jika jaringan tersebut belum ada, akan dibuat secara otomatis menggunakan ANNA.
Tujuan kami adalah membuat jaringan saraf berjalan langsung di perangkat pengguna, memotong biaya hingga 20 hingga 30 kali lipat. Di masa depan, hal ini hampir bisa menghilangkan biaya sepenuhnya, karena perangkat pengguna akan menangani komputasi daripada mengandalkan server cloud. Hal ini, dikombinasikan dengan kemajuan dalam kompresi model dan percepatan perangkat keras, bisa membuat implementasi AI menjadi jauh lebih efisien.
Kami juga berencana untuk mengintegrasikan teknologi kami dengan solusi perangkat keras, seperti sensor, chip, dan robotika, untuk aplikasi di bidang seperti kendaraan otonom dan robotika. Misalnya, kami bertujuan untuk membangun kamera AI yang mampu berfungsi di berbagai lingkungan, baik di luar angkasa maupun dalam kondisi ekstrem seperti kegelapan atau debu. Hal ini akan membuat AI dapat digunakan dalam berbagai aplikasi dan memungkinkan kami untuk menciptakan solusi khusus untuk perangkat keras dan kasus penggunaan tertentu.
Terima kasih atas wawancara yang hebat, pembaca yang ingin belajar lebih banyak sebaiknya mengunjungi TheStage AI.
Terkait:
Referensi: