Kursi berlengan alpukat ini bisa menjadi masa depan AI
Dapatkan link
Facebook
X
Pinterest
Email
Aplikasi Lainnya
Dengan GPT-3 , OpenAI menunjukkan bahwa satu model pembelajaran mendalam dapat dilatih untuk menggunakan bahasa dalam berbagai cara hanya dengan melemparkan sejumlah besar teks. Kemudian menunjukkan bahwa dengan menukar teks untuk piksel , pendekatan yang sama dapat digunakan untuk melatih AI untuk menyelesaikan gambar setengah jadi. GPT-3 meniru cara manusia menggunakan kata-kata; Gambar GPT-3 memprediksi apa yang kita lihat. Sekarang OpenAI telah menggabungkan ide-ide ini dan membangun dua model baru, yang disebut DALL · E dan CLIP , yang menggabungkan bahasa dan gambar dengan cara yang akan membuat AI lebih baik dalam memahami kedua kata dan apa yang dirujuknya. “Kita hidup dalam dunia visual,” kata Ilya Sutskever, kepala ilmuwan di OpenAI. “Dalam jangka panjang, Anda akan memiliki model yang memahami teks dan gambar. AI akan dapat memahami bahasa dengan lebih baik karena AI dapat melihat arti kata dan kalimat. ”Untuk semua bakat GPT-3, outputnya bisa terasa lepas dari kenyataan, seolah tidak tahu apa yang dibicarakannya. Itu karena tidak. Dengan membumikan teks dalam gambar, para peneliti di OpenAI dan di tempat lain mencoba memberikan model bahasa pemahaman yang lebih baik tentang konsep sehari-hari yang digunakan manusia untuk memahami berbagai hal. DALL · E dan CLIP mengatasi masalah ini dari arah yang berbeda. Pada pandangan pertama, CLIP (Contrastive Language-Image Pre-training) adalah sistem pengenalan gambar lainnya. Kecuali bahwa ia telah belajar mengenali gambar bukan dari contoh berlabel dalam kumpulan data yang dikurasi, seperti kebanyakan model yang ada, tetapi dari gambar dan keterangannya yang diambil dari internet. Ini mempelajari apa yang ada dalam gambar dari deskripsi daripada label satu kata seperti "kucing" atau "pisang." CLIP dilatih dengan membuatnya memprediksi teks mana dari pilihan acak 32.768 yang benar untuk gambar tertentu. Untuk menyelesaikannya, CLIP belajar untuk menghubungkan berbagai macam objek dengan nama mereka dan kata-kata yang mendeskripsikannya. Ini kemudian memungkinkannya mengidentifikasi objek dalam gambar di luar set pelatihannya. Sebagian besar sistem pengenalan citra dilatih untuk mengidentifikasi jenis objek tertentu, seperti wajah dalam video pengawasan atau bangunan dalam citra satelit. Seperti GPT-3, CLIP dapat menggeneralisasi seluruh tugas tanpa pelatihan tambahan. Ini juga lebih kecil kemungkinannya daripada model pengenalan gambar canggih lainnya untuk disesatkan oleh contoh permusuhan, yang telah diubah secara halus dengan cara yang biasanya membingungkan algoritme meskipun manusia mungkin tidak melihat perbedaannya. Alih-alih mengenali gambar, DALL · E (yang saya tebak adalah WALL · E / Dali pun) yang menggambarnya. Model ini adalah versi GPT-3 yang lebih kecil yang juga telah dilatih pada pasangan teks-gambar yang diambil dari internet. Dengan teks bahasa alami singkat, seperti "lukisan kapibara duduk di lapangan saat matahari terbit" atau "pemandangan melintang kenari", DALL · E menghasilkan banyak gambar yang cocok dengannya: lusinan kapibara semua bentuk dan ukuran di depan latar belakang oranye dan kuning; baris demi baris kenari (meski tidak semuanya berpotongan melintang).
Dapatkan surealis
Hasilnya mencolok, meski masih kantong campuran. Teks "jendela kaca patri dengan gambar stroberi biru" memberikan banyak hasil yang benar, tetapi ada juga yang memiliki jendela biru dan stroberi merah. Yang lain tidak berisi apa pun yang terlihat seperti jendela atau stroberi. Hasil yang dipamerkan oleh tim OpenAI dalam posting blog belum dipilih secara langsung tetapi diberi peringkat oleh CLIP, yang telah memilih 32 DALL · E gambar untuk setiap teks yang menurutnya paling cocok dengan deskripsi. "Teks-ke-gambar adalah tantangan penelitian yang telah ada sejak lama," kata Mark Riedl, yang bekerja pada NLP dan kreativitas komputasi di Institut Teknologi Georgia di Atlanta. “Tapi ini adalah contoh yang mengesankan.”
Gambar digambar oleh DALL · E dengan judul "Bayi lobak daikon dengan tutu berjalan-jalan dengan anjing"
Untuk menguji kemampuan DALL · E dalam bekerja dengan konsep baru, para peneliti memberikan keterangan yang mendeskripsikan objek yang mereka pikir tidak akan pernah dilihat sebelumnya, seperti “kursi berlengan alpukat” dan “ilustrasi lobak bayi daikon dengan tutu berjalan. anjing." Dalam kedua kasus ini, AI menghasilkan gambar yang menggabungkan konsep-konsep ini dengan cara yang masuk akal. Kursi berlengan khususnya semuanya terlihat seperti kursi dan alpukat. “Hal yang paling mengejutkan saya adalah bahwa model tersebut dapat mengambil dua konsep yang tidak terkait dan menggabungkannya sedemikian rupa sehingga menghasilkan sesuatu yang fungsional,” kata Aditya Ramesh, yang mengerjakan DALL · E. Ini mungkin karena alpukat yang dibelah dua terlihat seperti kursi berlengan dengan sandaran tinggi, dengan lubang sebagai bantalan. Untuk caption lain, seperti “siput dari harpa”, hasilnya kurang bagus, dengan gambar yang menggabungkan siput dan harpa dengan cara yang aneh. DALL · E adalah jenis sistem yang dibayangkan Riedl untuk dikirim ke tes Lovelace 2.0 , eksperimen pemikiran yang dia hasilkan pada tahun 2014. Tes tersebut dimaksudkan untuk menggantikan tes Turing sebagai tolak ukur untuk mengukur kecerdasan buatan. Ini mengasumsikan bahwa salah satu tanda kecerdasan adalah kemampuan untuk memadukan konsep dengan cara yang kreatif. Riedl menyarankan bahwa meminta komputer untuk menggambar seorang pria memegang penguin adalah tes kecerdasan yang lebih baik daripada meminta chatbot untuk menipu manusia dalam percakapan, karena lebih terbuka dan tidak mudah untuk menipu. “Pengujian sebenarnya adalah melihat seberapa jauh AI dapat didorong keluar dari zona nyamannya,” kata Riedl.
Gambar digambar oleh DALL · E dengan teks "siput terbuat dari harpa"
“Kemampuan model untuk menghasilkan gambar sintetis dari teks yang agak aneh tampaknya sangat menarik bagi saya,” kata Ani Kembhavi dari Allen Institute for Artificial Intelligence (AI2), yang juga mengembangkan sistem yang menghasilkan gambar dari teks . “Hasilnya sepertinya mematuhi semantik yang diinginkan, yang menurut saya cukup mengesankan.” Jaemin Cho, seorang kolega Kembhavi, juga terkesan: "Generator teks-ke-gambar yang ada belum menunjukkan tingkat kontrol yang menggambar banyak objek atau kemampuan penalaran spasial DALL · E," katanya. Namun DALL · E sudah menunjukkan tanda-tanda ketegangan. Menyertakan terlalu banyak objek dalam keterangan akan memperluas kemampuannya untuk melacak apa yang akan digambar. Dan mengubah teks dengan kata-kata yang memiliki arti sama terkadang memberikan hasil yang berbeda. Ada juga tanda-tanda bahwa DALL · E meniru gambar yang ditemuinya secara online daripada menghasilkan gambar baru. “Saya agak curiga dengan contoh daikon, yang secara gaya menunjukkan bahwa ia mungkin menghafal beberapa seni dari internet,” kata Riedl. Dia mencatat bahwa pencarian cepat menampilkan banyak gambar kartun daikon antropomorfis. “GPT-3, yang menjadi dasar DALL · E, terkenal karena menghafal,” katanya. Namun, sebagian besar peneliti AI setuju bahwa bahasa dasar dalam pemahaman visual adalah cara yang baik untuk membuat AI lebih pintar. “Masa depan akan terdiri dari sistem seperti ini,” kata Sutskever. "Dan kedua model ini adalah satu langkah menuju sistem itu."
Ketergantungan kita pada teknologi telah melonjak selama pandemi. Perusahaan analisis aplikasi App Annie menemukan bahwa orang menghabiskan sekitar 4 jam dan 18 menit per hari di perangkat seluler pada bulan April 2020. Itu meningkat 20% dari tahun sebelumnya, setara dengan tambahan 45 menit per hari waktu layar. Penelitian menunjukkan bahwa secara intrinsik tidak ada yang salah dengan menghabiskan lebih banyak waktu di layar — terutama saat ini. Terlepas dari manfaat terhubung dengan teman, keluarga, dan rekan kerja, beralih ke teknologi dapat membantu kita mengelola emosi yang sulit dan bahkan mengurangi stres . Namun, tidak semua waktu layar dibuat sama. Beberapa aktivitas online memang membawa risiko tertentu. Menghabiskan waktu lama secara pasif menelusuri media sosial, misalnya, terkait dengan perasaan iri dan kesepian yang lebih besar, serta risiko depresi yang lebih tinggi. Lalu, apa yang harus kita lakukan di bulan-bulan mendatang untuk memastikan hubungan kita dengan tekn...
Saat aplikasi pembelajaran mesin beralih ke arus utama, era baru ancaman dunia maya muncul — era yang menggunakan kecerdasan buatan (AI) ofensif untuk meningkatkan kampanye serangan. AI ofensif memungkinkan penyerang untuk mengotomatiskan pengintaian, membuat serangan peniruan yang disesuaikan dengan kebutuhan, dan bahkan menyebar sendiri untuk menghindari deteksi. Tim keamanan dapat bersiap dengan beralih ke AI defensif untuk melawan — menggunakan pertahanan cyber otonom yang belajar di tempat kerja untuk mendeteksi dan merespons bahkan indikator serangan yang paling halus, di mana pun ia muncul. Marcy Rizzo, dari MIT Technology Review, mewawancarai Marcus Fowler dan Max Heinemeyer dari Darktrace pada Januari 2021. MIT Technology Review baru-baru ini duduk bersama para ahli dari Darktrace — Marcus Fowler, direktur ancaman strategis, dan Max Heinemeyer, direktur perburuan ancaman — untuk membahas aplikasi AI ofensif, AI defensif, dan pertempuran algoritme yang sedang berlangsung ant...
Pada tahun 1964, matematikawan dan ilmuwan komputer Woodrow Bledsoe pertama kali mencoba mencocokkan wajah tersangka dengan foto. Dia mengukur jarak antara fitur wajah yang berbeda dalam foto cetakan dan memasukkannya ke dalam program komputer. Keberhasilannya yang belum sempurna akan memicu penelitian puluhan tahun ke dalam mesin pengajaran untuk mengenali wajah manusia. Sekarang sebuah studi baru menunjukkan seberapa besar perusahaan ini telah mengikis privasi kami. Itu tidak hanya memicu alat pengawasan yang semakin kuat. Pengenalan wajah berbasis deep learning generasi terbaru benar-benar mengganggu norma persetujuan kami. Deborah Raji, seorang rekan di Mozilla nirlaba, dan Genevieve Fried, yang menasihati anggota Kongres AS tentang akuntabilitas algoritmik, memeriksa lebih dari 130 kumpulan data pengenalan wajah yang dikumpulkan selama 43 tahun. Mereka menemukan bahwa para peneliti, didorong oleh kebutuhan data yang meledak dalam pembelajaran mendalam, secara bertahap meninggalk...
Komentar
Posting Komentar