Meta telah mengumumkan model AI open-source baru yang menghubungkan berbagai aliran data, termasuk teks, audio, data visual, suhu, dan pembacaan gerakan.
Model ini hanya merupakan proyek penelitian pada saat ini, tanpa aplikasi konsumen atau praktis langsung, tetapi model ini menunjukkan masa depan sistem AI generatif yang dapat menciptakan pengalaman multisensorik yang imersif dan menunjukkan bahwa Meta terus membagikan penelitian AI pada saat saingan seperti OpenAI dan Google semakin tertutup.
Konsep inti dari penelitian ini adalah menghubungkan berbagai jenis data ke dalam satu indeks multidimensi (atau “ruang penyematan”, menggunakan istilah AI). Ide ini mungkin tampak agak abstrak, tetapi konsep yang sama inilah yang mendasari ledakan baru-baru ini dalam AI generatif.
Sebagai contoh, generator gambar AI seperti DALL-E, Stable Diffusion, dan Midjourney, semuanya mengandalkan sistem yang menghubungkan teks dan gambar selama tahap pelatihan. Sistem-sistem ini mencari pola dalam data visual sambil menghubungkan informasi tersebut dengan deskripsi gambar. Itulah yang kemudian memungkinkan sistem ini menghasilkan gambar yang mengikuti input teks pengguna. Hal yang sama juga berlaku pada banyak alat AI yang menghasilkan video atau audio dengan cara yang sama.
Meta mengatakan bahwa modelnya, ImageBind, adalah yang pertama menggabungkan enam jenis data ke dalam satu ruang penyematan. Keenam jenis data yang termasuk dalam model ini adalah: visual (dalam bentuk gambar dan video); termal (gambar inframerah); teks; audio; informasi kedalaman; dan – yang paling menarik – pembacaan gerakan yang dihasilkan oleh unit pengukur inersia, atau IMU. (IMU ditemukan pada ponsel dan jam tangan pintar, yang digunakan untuk berbagai tugas, mulai dari mengalihkan ponsel dari lanskap ke potret hingga membedakan berbagai jenis aktivitas fisik).
Idenya adalah bahwa sistem AI di masa depan akan dapat melakukan referensi silang data ini dengan cara yang sama seperti yang dilakukan oleh sistem AI saat ini untuk input teks. Bayangkan, misalnya, perangkat realitas virtual futuristik yang tidak hanya menghasilkan input audio dan visual, tetapi juga lingkungan dan gerakan Anda di atas panggung fisik. Anda mungkin memintanya untuk meniru perjalanan laut yang panjang, dan itu tidak hanya akan menempatkan Anda di atas kapal dengan suara ombak sebagai latar belakang, tetapi juga goyangan geladak di bawah kaki Anda dan angin laut yang sejuk.
Dalam sebuah posting blog, Meta mencatat bahwa aliran input sensorik lainnya dapat ditambahkan ke model masa depan, termasuk “sentuhan, ucapan, penciuman, dan sinyal fMRI otak.” Meta juga mengklaim bahwa penelitian ini “membawa mesin selangkah lebih dekat dengan kemampuan manusia untuk belajar secara simultan, holistik, dan langsung dari berbagai bentuk informasi.” (Yang, tentu saja, terserah. Tergantung seberapa kecil langkah ini).
Tentu saja, ini semua masih sangat spekulatif, dan kemungkinan besar aplikasi langsung dari penelitian seperti ini akan jauh lebih terbatas. Sebagai contoh, tahun lalu, Meta mendemonstrasikan model AI yang menghasilkan video pendek dan kabur dari deskripsi teks. Karya seperti ImageBind menunjukkan bagaimana versi masa depan dari sistem ini dapat menggabungkan aliran data lainnya, menghasilkan audio yang sesuai dengan output video, misalnya.
Bagi pengamat industri, penelitian ini juga menarik karena Meta menggunakan sumber terbuka untuk model yang mendasarinya – sebuah praktik yang semakin banyak diteliti di dunia AI.
Mereka yang menentang open-sourcing, seperti OpenAI, mengatakan bahwa praktik ini berbahaya bagi para kreator karena saingan dapat menyalin karya mereka dan berpotensi berbahaya, memungkinkan aktor jahat untuk mengambil keuntungan dari model AI yang canggih. Para pendukungnya menanggapi bahwa open-sourcing memungkinkan pihak ketiga untuk memeriksa sistem untuk mencari kesalahan dan memperbaiki beberapa kegagalannya. Mereka mencatat bahwa hal ini bahkan dapat memberikan keuntungan komersial, karena pada dasarnya memungkinkan perusahaan untuk merekrut pengembang pihak ketiga sebagai pekerja yang tidak dibayar untuk meningkatkan pekerjaan mereka.
Meta sejauh ini berada di kubu open-source, meskipun bukan tanpa kesulitan. (Model bahasa terbarunya, LLaMA, bocor secara online pada awal tahun ini, sebagai contoh). Dalam banyak hal, kurangnya pencapaian komersial dalam AI (perusahaan tidak memiliki chatbot untuk menyaingi Bing, Bard, atau ChatGPT) telah memungkinkan pendekatan ini. Dan untuk sementara ini, dengan ImageBind, mereka terus melanjutkan strategi ini.