Kursi berlengan alpukat ini bisa menjadi masa depan AI

Dengan GPT-3 , OpenAI menunjukkan bahwa satu model pembelajaran mendalam dapat dilatih untuk menggunakan bahasa dalam berbagai cara hanya dengan melemparkan sejumlah besar teks. Kemudian menunjukkan bahwa dengan menukar teks untuk piksel , pendekatan yang sama dapat digunakan untuk melatih AI untuk menyelesaikan gambar setengah jadi. GPT-3 meniru cara manusia menggunakan kata-kata; Gambar GPT-3 memprediksi apa yang kita lihat. Sekarang OpenAI telah menggabungkan ide-ide ini dan membangun dua model baru, yang disebut DALL · E dan CLIP , yang menggabungkan bahasa dan gambar dengan cara yang akan membuat AI lebih baik dalam memahami kedua kata dan apa yang dirujuknya. “Kita hidup dalam dunia visual,” kata Ilya Sutskever, kepala ilmuwan di OpenAI. “Dalam jangka panjang, Anda akan memiliki model yang memahami teks dan gambar. AI akan dapat memahami bahasa dengan lebih baik karena AI dapat melihat arti kata dan kalimat. ”Untuk semua bakat GPT-3, outputnya bisa terasa lepas dari kenyataan, seolah tidak tahu apa yang dibicarakannya. Itu karena tidak. Dengan membumikan teks dalam gambar, para peneliti di OpenAI dan di tempat lain mencoba memberikan model bahasa pemahaman yang lebih baik tentang konsep sehari-hari yang digunakan manusia untuk memahami berbagai hal. DALL · E dan CLIP mengatasi masalah ini dari arah yang berbeda. Pada pandangan pertama, CLIP (Contrastive Language-Image Pre-training) adalah sistem pengenalan gambar lainnya. Kecuali bahwa ia telah belajar mengenali gambar bukan dari contoh berlabel dalam kumpulan data yang dikurasi, seperti kebanyakan model yang ada, tetapi dari gambar dan keterangannya yang diambil dari internet. Ini mempelajari apa yang ada dalam gambar dari deskripsi daripada label satu kata seperti "kucing" atau "pisang." CLIP dilatih dengan membuatnya memprediksi teks mana dari pilihan acak 32.768 yang benar untuk gambar tertentu. Untuk menyelesaikannya, CLIP belajar untuk menghubungkan berbagai macam objek dengan nama mereka dan kata-kata yang mendeskripsikannya. Ini kemudian memungkinkannya mengidentifikasi objek dalam gambar di luar set pelatihannya. Sebagian besar sistem pengenalan citra dilatih untuk mengidentifikasi jenis objek tertentu, seperti wajah dalam video pengawasan atau bangunan dalam citra satelit. Seperti GPT-3, CLIP dapat menggeneralisasi seluruh tugas tanpa pelatihan tambahan. Ini juga lebih kecil kemungkinannya daripada model pengenalan gambar canggih lainnya untuk disesatkan oleh contoh permusuhan, yang telah diubah secara halus dengan cara yang biasanya membingungkan algoritme meskipun manusia mungkin tidak melihat perbedaannya. Alih-alih mengenali gambar, DALL · E (yang saya tebak adalah WALL · E / Dali pun) yang menggambarnya. Model ini adalah versi GPT-3 yang lebih kecil yang juga telah dilatih pada pasangan teks-gambar yang diambil dari internet. Dengan teks bahasa alami singkat, seperti "lukisan kapibara duduk di lapangan saat matahari terbit" atau "pemandangan melintang kenari", DALL · E menghasilkan banyak gambar yang cocok dengannya: lusinan kapibara semua bentuk dan ukuran di depan latar belakang oranye dan kuning; baris demi baris kenari (meski tidak semuanya berpotongan melintang).

Dapatkan surealis

Hasilnya mencolok, meski masih kantong campuran. Teks "jendela kaca patri dengan gambar stroberi biru" memberikan banyak hasil yang benar, tetapi ada juga yang memiliki jendela biru dan stroberi merah. Yang lain tidak berisi apa pun yang terlihat seperti jendela atau stroberi. Hasil yang dipamerkan oleh tim OpenAI dalam posting blog belum dipilih secara langsung tetapi diberi peringkat oleh CLIP, yang telah memilih 32 DALL · E gambar untuk setiap teks yang menurutnya paling cocok dengan deskripsi. "Teks-ke-gambar adalah tantangan penelitian yang telah ada sejak lama," kata Mark Riedl, yang bekerja pada NLP dan kreativitas komputasi di Institut Teknologi Georgia di Atlanta. “Tapi ini adalah contoh yang mengesankan.”
Gambar digambar oleh DALL · E dengan judul "Bayi lobak daikon dengan tutu berjalan-jalan dengan anjing"
Untuk menguji kemampuan DALL · E dalam bekerja dengan konsep baru, para peneliti memberikan keterangan yang mendeskripsikan objek yang mereka pikir tidak akan pernah dilihat sebelumnya, seperti “kursi berlengan alpukat” dan “ilustrasi lobak bayi daikon dengan tutu berjalan. anjing." Dalam kedua kasus ini, AI menghasilkan gambar yang menggabungkan konsep-konsep ini dengan cara yang masuk akal. Kursi berlengan khususnya semuanya terlihat seperti kursi dan alpukat. “Hal yang paling mengejutkan saya adalah bahwa model tersebut dapat mengambil dua konsep yang tidak terkait dan menggabungkannya sedemikian rupa sehingga menghasilkan sesuatu yang fungsional,” kata Aditya Ramesh, yang mengerjakan DALL · E. Ini mungkin karena alpukat yang dibelah dua terlihat seperti kursi berlengan dengan sandaran tinggi, dengan lubang sebagai bantalan. Untuk caption lain, seperti “siput dari harpa”, hasilnya kurang bagus, dengan gambar yang menggabungkan siput dan harpa dengan cara yang aneh. DALL · E adalah jenis sistem yang dibayangkan Riedl untuk dikirim ke tes Lovelace 2.0 , eksperimen pemikiran yang dia hasilkan pada tahun 2014. Tes tersebut dimaksudkan untuk menggantikan tes Turing sebagai tolak ukur untuk mengukur kecerdasan buatan. Ini mengasumsikan bahwa salah satu tanda kecerdasan adalah kemampuan untuk memadukan konsep dengan cara yang kreatif. Riedl menyarankan bahwa meminta komputer untuk menggambar seorang pria memegang penguin adalah tes kecerdasan yang lebih baik daripada meminta chatbot untuk menipu manusia dalam percakapan, karena lebih terbuka dan tidak mudah untuk menipu. “Pengujian sebenarnya adalah melihat seberapa jauh AI dapat didorong keluar dari zona nyamannya,” kata Riedl.
Gambar digambar oleh DALL · E dengan teks "siput terbuat dari harpa"
“Kemampuan model untuk menghasilkan gambar sintetis dari teks yang agak aneh tampaknya sangat menarik bagi saya,” kata Ani Kembhavi dari Allen Institute for Artificial Intelligence (AI2), yang juga mengembangkan sistem yang menghasilkan gambar dari teks . “Hasilnya sepertinya mematuhi semantik yang diinginkan, yang menurut saya cukup mengesankan.” Jaemin Cho, seorang kolega Kembhavi, juga terkesan: "Generator teks-ke-gambar yang ada belum menunjukkan tingkat kontrol yang menggambar banyak objek atau kemampuan penalaran spasial DALL · E," katanya. Namun DALL · E sudah menunjukkan tanda-tanda ketegangan. Menyertakan terlalu banyak objek dalam keterangan akan memperluas kemampuannya untuk melacak apa yang akan digambar. Dan mengubah teks dengan kata-kata yang memiliki arti sama terkadang memberikan hasil yang berbeda. Ada juga tanda-tanda bahwa DALL · E meniru gambar yang ditemuinya secara online daripada menghasilkan gambar baru. “Saya agak curiga dengan contoh daikon, yang secara gaya menunjukkan bahwa ia mungkin menghafal beberapa seni dari internet,” kata Riedl. Dia mencatat bahwa pencarian cepat menampilkan banyak gambar kartun daikon antropomorfis. “GPT-3, yang menjadi dasar DALL · E, terkenal karena menghafal,” katanya. Namun, sebagian besar peneliti AI setuju bahwa bahasa dasar dalam pemahaman visual adalah cara yang baik untuk membuat AI lebih pintar. “Masa depan akan terdiri dari sistem seperti ini,” kata Sutskever. "Dan kedua model ini adalah satu langkah menuju sistem itu."

Komentar

Postingan populer dari blog ini

Cara menjalin hubungan yang lebih baik dengan teknisi Anda

Pertarungan algoritma: Mengungkap AI ofensif

Begitulah cara kami kehilangan kendali atas wajah kami