Mengutip perkataan Andreessen Horowitz, AI generatif, khususnya di sisi teks-ke-seni, sedang memakan dunia. Setidaknya, para investor percaya demikian – dilihat dari miliaran dolar yang telah mereka gelontorkan untuk perusahaan rintisan yang mengembangkan AI yang menciptakan teks dan gambar dari perintah.

Tidak ketinggalan, perusahaan teknologi besar juga berinvestasi dalam solusi seni AI generatifnya sendiri, baik melalui kemitraan dengan perusahaan rintisan yang telah disebutkan di atas atau R&D internal. (Lihat: Microsoft bekerja sama dengan OpenAI untuk Image Creator.) Google, dengan memanfaatkan sayap R&D-nya yang kuat, telah memutuskan untuk menempuh jalur yang terakhir, mengomersialkan karyanya di bidang AI generatif untuk bersaing dengan platform yang sudah ada di luar sana.

Hari ini di konferensi pengembang I/O tahunannya, Google mengumumkan model-model AI baru yang mengarah ke Vertex AI, layanan AI yang dikelola sepenuhnya, termasuk model teks-ke-gambar yang disebut Imagen. Imagen, yang telah dipratinjau oleh Google melalui aplikasi AI Test Kitchen pada bulan November lalu, dapat menghasilkan dan mengedit gambar serta menulis teks untuk gambar yang sudah ada.

“Setiap pengembang dapat menggunakan teknologi ini menggunakan Google Cloud,” kata Nenshad Bardoliwalla, direktur Vertex AI di Google Cloud, kepada TechCrunch dalam sebuah wawancara telepon. “Anda tidak perlu menjadi ilmuwan data atau pengembang.”

Imagen di Vertex

Memulai dengan Imagen di Vertex, memang, merupakan proses yang relatif mudah. UI untuk model dapat diakses dari apa yang disebut Google sebagai Model Garden, sebuah pilihan model yang dikembangkan Google bersama dengan model open source yang telah dikurasi. Di dalam UI, mirip dengan platform seni generatif seperti Midjourney dan NightCafe, pelanggan dapat memasukkan perintah (misalnya “tas tangan ungu”) untuk meminta Imagen menghasilkan beberapa gambar kandidat.

Alat bantu penyuntingan dan petunjuk tindak lanjut menyempurnakan gambar yang dihasilkan Imagen, misalnya, menyesuaikan warna objek yang digambarkan di dalamnya. Vertex juga menawarkan peningkatan skala untuk menajamkan gambar, di samping penyempurnaan yang memungkinkan pelanggan mengarahkan Imagen ke gaya dan preferensi tertentu.

Seperti yang telah disinggung sebelumnya, Imagen juga dapat menghasilkan teks untuk gambar, secara opsional menerjemahkan teks tersebut dengan memanfaatkan Google Translate. Untuk mematuhi peraturan privasi seperti GDPR, gambar yang dihasilkan yang tidak disimpan akan dihapus dalam waktu 24 jam, kata Bardoliwalla.

“Kami membuatnya sangat mudah bagi orang-orang untuk mulai bekerja dengan AI generatif dan gambar mereka,” tambahnya.

Tentu saja, ada sejumlah tantangan etika dan hukum yang terkait dengan semua bentuk AI generatif – tidak peduli seberapa halus UI-nya. Model AI seperti Imagen “belajar” untuk menghasilkan gambar dari perintah teks dengan “melatih” gambar yang ada, yang sering kali berasal dari kumpulan data yang diambil dari situs web hosting gambar publik. Beberapa ahli menyarankan bahwa model pelatihan yang menggunakan gambar publik, bahkan gambar yang memiliki hak cipta, akan tercakup dalam doktrin penggunaan yang adil di AS.

Sebagai contoh, dua perusahaan di balik alat seni AI yang populer, Midjourney dan Stability AI, sedang berada di tengah-tengah kasus hukum yang menyatakan bahwa mereka melanggar hak-hak jutaan seniman dengan melatih alat mereka pada gambar-gambar yang diambil dari web. Pemasok stok gambar, Getty Images, secara terpisah telah membawa Stability AI ke pengadilan, karena dilaporkan menggunakan jutaan gambar dari situsnya tanpa izin untuk melatih model penghasil karya seni, Stable Diffusion.

Saya bertanya kepada Bardoliwalla apakah pelanggan Vertex perlu khawatir bahwa Imagen mungkin telah dilatih dengan materi berhak cipta. Dapat dimengerti, mereka mungkin akan enggan menggunakannya jika hal itu terjadi.

Bardoliwalla tidak mengatakan secara langsung bahwa Imagen tidak dilatih tentang gambar-gambar bermerek dagang – hanya saja Google melakukan “tinjauan tata kelola data” yang luas untuk “melihat sumber data” di dalam modelnya untuk memastikan bahwa model-model tersebut “bebas dari klaim hak cipta.” (Bahasa yang dilindung nilai ini tidak terlalu mengejutkan mengingat Imagen yang asli dilatih dengan menggunakan kumpulan data publik, LAION, yang diketahui mengandung karya berhak cipta).

“Kami harus memastikan bahwa kami benar-benar berada dalam keseimbangan untuk menghormati semua hukum yang berkaitan dengan informasi hak cipta,” lanjut Bardoliwalla. “Kami sangat jelas kepada pelanggan bahwa kami menyediakan model yang dapat mereka percayai untuk digunakan dalam pekerjaan mereka, dan bahwa mereka memiliki IP yang dihasilkan dari model yang dilatih dengan cara yang sepenuhnya aman.”

Memiliki IP adalah masalah lain. Setidaknya di Amerika Serikat, masih belum jelas apakah karya seni yang dihasilkan oleh AI memiliki hak cipta.

Salah satu solusinya – bukan untuk masalah kepemilikan, tetapi untuk pertanyaan seputar data pelatihan yang memiliki hak cipta – adalah memungkinkan seniman untuk “memilih tidak ikut serta” dalam pelatihan AI. Perusahaan rintisan AI, Spawning, sedang mencoba untuk menetapkan standar dan alat di seluruh industri untuk menolak teknologi AI generatif. Adobe sedang mengupayakan mekanisme dan alat untuk menolaknya sendiri. Begitu juga dengan DeviantArt, yang pada bulan November meluncurkan proteksi berbasis tag HTML untuk melarang robot perangkat lunak merayapi halaman untuk mencari gambar.

Google tidak menawarkan opsi untuk tidak ikut serta. (Sejujurnya, begitu juga dengan salah satu saingan utamanya, OpenAI.) Bardoliwalla tidak mengatakan apakah hal ini akan berubah di masa depan, hanya saja Google “sangat peduli” untuk memastikan bahwa mereka melatih para model dengan cara yang “etis dan bertanggung jawab.”

Menurut saya, pernyataan tersebut agak berlebihan, karena berasal dari perusahaan yang membatalkan dewan etika AI dari luar, memaksa keluar peneliti etika AI terkemuka, dan membatasi penerbitan penelitian AI untuk “bersaing dan menyimpan pengetahuan di dalam perusahaan.” Namun, tafsirkanlah kata-kata Bardoliwalla sesuka Anda.

Saya juga bertanya kepada Bardoliwalla tentang langkah-langkah yang diambil Google, jika ada, untuk membatasi jumlah konten beracun atau bias yang dibuat oleh Imagen – masalah lain dengan sistem AI generatif. Baru-baru ini, para peneliti di perusahaan rintisan AI Hugging Face dan Universitas Leipzig menerbitkan sebuah alat yang menunjukkan bahwa model seperti Stable Diffusion dan DALL-E 2 dari OpenAI cenderung menghasilkan gambar orang yang terlihat berkulit putih dan berjenis kelamin laki-laki, terutama ketika diminta untuk menggambarkan orang yang memiliki posisi otoritas.

Bardoliwalla memiliki jawaban yang lebih rinci untuk pertanyaan ini, mengklaim bahwa setiap panggilan API ke model generatif yang dihosting Vertex dievaluasi untuk “atribut keamanan” termasuk toksisitas, kekerasan, dan kecabulan. Vertex menilai model berdasarkan atribut-atribut ini dan, untuk kategori tertentu, memblokir respons atau memberikan pilihan kepada pelanggan untuk melanjutkan, kata Bardoliwalla.

“Kami memiliki pemahaman yang sangat baik dari properti konsumen kami tentang jenis konten yang mungkin bukan jenis konten yang dicari oleh pelanggan kami untuk diproduksi oleh model AI generatif ini,” lanjutnya. “Ini adalah area investasi yang signifikan serta kepemimpinan pasar bagi Google – bagi kami untuk memastikan bahwa pelanggan kami dapat menghasilkan hasil yang mereka cari tanpa membahayakan atau merusak nilai merek mereka.”

Untuk itu, Google meluncurkan pembelajaran penguatan dari umpan balik manusia (RLHF) sebagai penawaran layanan terkelola di Vertex, yang diklaim akan membantu organisasi mempertahankan kinerja model dari waktu ke waktu dan menerapkan model yang lebih aman – dan terukur lebih akurat – dalam produksi. RLHF, sebuah teknik populer dalam pembelajaran mesin, melatih “model penghargaan” secara langsung dari umpan balik manusia, seperti meminta pekerja kontrak untuk menilai tanggapan dari chatbot AI. Kemudian menggunakan model penghargaan ini untuk mengoptimalkan model AI generatif di sepanjang garis Imagen.

Bardoliwalla mengatakan bahwa jumlah penyempurnaan yang diperlukan melalui RLHF akan bergantung pada cakupan masalah yang ingin dipecahkan oleh pelanggan. Ada perdebatan di kalangan akademisi mengenai apakah RLHF selalu merupakan pendekatan yang tepat – perusahaan rintisan AI Anthropic, misalnya, berpendapat bahwa RLHF bukan pendekatan yang tepat, karena RLHF bisa jadi memerlukan perekrutan sejumlah kontraktor dengan bayaran rendah yang dipaksa untuk memberi peringkat pada konten yang sangat beracun. Tetapi Google memiliki pendapat yang berbeda.

“Dengan layanan RLHF kami, pelanggan dapat memilih modalitas dan modelnya, lalu memberi peringkat pada tanggapan yang berasal dari model tersebut,” kata Bardoliwalla. “Setelah mereka mengirimkan tanggapan tersebut ke layanan pembelajaran penguatan, model tersebut akan menyetel model untuk menghasilkan tanggapan yang lebih baik yang selaras dengan… apa yang dicari oleh sebuah organisasi.”

Model-model dan alat-alat baru

Selain Imagen, beberapa model AI generatif lainnya sekarang tersedia untuk pelanggan Vertex tertentu, Google mengumumkan hari ini: Codey dan Chirp.

Codey, jawaban Google untuk Copilot dari GitHub, dapat menghasilkan kode dalam lebih dari 20 bahasa termasuk Go, Java, JavaScript, Python, dan TypeScript. Codey dapat menyarankan beberapa baris berikutnya berdasarkan konteks kode yang dimasukkan ke dalam prompt atau, seperti ChatGPT dari OpenAI, model ini dapat menjawab pertanyaan tentang debugging, dokumentasi, dan konsep-konsep pengkodean tingkat tinggi.

Sedangkan untuk Chirp, ini adalah model ucapan yang dilatih dengan “jutaan” jam audio yang mendukung lebih dari 100 bahasa dan dapat digunakan untuk memberi keterangan video, menawarkan bantuan suara, dan secara umum memberi daya pada berbagai tugas dan aplikasi ucapan.

Dalam pengumuman terkait di I/O, Google meluncurkan Embeddings API untuk Vertex dalam bentuk pratinjau, yang dapat mengubah data teks dan gambar menjadi representasi yang disebut vektor yang memetakan hubungan semantik tertentu. Google mengatakan bahwa API ini akan digunakan untuk membangun fungsionalitas pencarian semantik dan klasifikasi teks seperti chatbot Q&A berdasarkan data organisasi, analisis sentimen, dan deteksi anomali.

Codey, Imagen, Embeddings API untuk gambar dan RLHF tersedia di Vertex AI untuk “penguji tepercaya,” kata Google. Sementara itu, Chirp, Embeddings API dan Generative AI Studio, sebuah paket untuk berinteraksi dengan dan menerapkan model AI, dapat diakses dalam pratinjau di Vertex untuk siapa saja yang memiliki akun Google Cloud.

Sumber : https://techcrunch.com/2023/05/10/google-brings-new-generative-models-to-vertex-ai-including-imagen/