Kalimat yang campur aduk menunjukkan bahwa AI masih belum benar-benar memahami bahasa
Banyak AI yang tampaknya memahami bahasa dan skornya lebih baik daripada manusia pada serangkaian tugas pemahaman umum tidak memperhatikan ketika kata-kata dalam kalimat campur aduk, yang menunjukkan bahwa mereka sama sekali tidak mengerti bahasa . Masalahnya terletak pada cara sistem pemrosesan bahasa alami (NLP) dilatih; ini juga menunjukkan cara untuk membuatnya lebih baik. Para peneliti di Auburn University di Alabama dan Adobe Research menemukan kesalahan ketika mereka mencoba mendapatkan sistem NLP untuk menghasilkan penjelasan atas perilakunya, seperti mengapa ia mengklaim kalimat yang berbeda memiliki arti yang sama. Ketika mereka menguji pendekatan mereka, mereka menyadari bahwa mengacak kata dalam kalimat tidak membuat perbedaan pada penjelasannya. “Ini adalah masalah umum untuk semua model NLP,” kata Anh Nguyen dari Auburn University, yang memimpin penelitian ini. Tim tersebut melihat beberapa sistem NLP yang canggih berdasarkan BERT (model bahasa yang dikembangkan oleh Google yang mendukung banyak sistem terbaru, termasuk GPT-3). Semua sistem ini mendapat skor lebih baik daripada manusia pada LEM (Evaluasi Pemahaman Bahasa Umum), serangkaian tugas standar yang dirancang untuk menguji pemahaman bahasa, seperti mengenali parafrasa, menilai apakah sebuah kalimat mengungkapkan sentimen positif atau negatif, dan penalaran verbal. Manusia menggigit anjing: Mereka menemukan bahwa sistem ini tidak dapat mengetahui kapan kata-kata dalam kalimat bercampur aduk, bahkan ketika urutan baru mengubah artinya. Misalnya, sistem menemukan dengan tepat bahwa kalimat "Apakah ganja menyebabkan kanker?" dan "Bagaimana merokok mariyuana bisa menyebabkan kanker paru-paru?" adalah parafrase. Tetapi mereka bahkan lebih yakin bahwa "Anda merokok kanker bagaimana paru-paru bisa memberi?" dan "Paru-paru bisa memberi ganja merokok bagaimana Anda terkena kanker?" berarti hal yang sama juga. Sistem juga memutuskan bahwa kalimat dengan arti yang berlawanan seperti "Apakah mariyuana menyebabkan kanker?" dan "Apakah kanker menyebabkan ganja?" menanyakan pertanyaan yang sama. Satu-satunya tugas di mana urutan kata penting adalah tugas di mana model harus memeriksa struktur tata bahasa sebuah kalimat. Sebaliknya, antara 75% dan 90% jawaban sistem yang diuji tidak berubah ketika kata-kata diacak. Apa yang sedang terjadi? Model tampaknya menangkap beberapa kata kunci dalam sebuah kalimat, apa pun urutannya. Mereka tidak memahami bahasa seperti yang kita lakukan dan GLUE — tolok ukur yang sangat populer — tidak mengukur penggunaan bahasa yang sebenarnya. Dalam banyak kasus, tugas yang melatih model tidak memaksanya untuk memperhatikan urutan kata atau sintaks secara umum. Dengan kata lain, GLUE mengajarkan model NLP untuk melompati lingkaran. Banyak peneliti mulai menggunakan serangkaian tes yang lebih sulit yang disebut SuperGLUE tetapi Nguyen menduga itu akan memiliki masalah yang sama. Masalah ini juga telah diidentifikasi oleh Yoshua Bengio dan rekannya, yang menemukan bahwa menyusun ulang kata-kata dalam percakapan terkadang tidak mengubah tanggapan yang dibuat oleh chatbots. Dan tim dari Facebook AI Research menemukan contoh hal ini terjadi dengan bahasa Mandarin . Tim Nguyen menunjukkan bahwa masalahnya sudah meluas. Apakah itu penting? Tergantung aplikasinya. Di satu sisi, AI yang masih memahami saat Anda salah ketik atau mengatakan sesuatu yang kacau, seperti yang bisa dilakukan oleh manusia lain, akan berguna. Namun, secara umum, urutan kata sangat penting saat menghapus makna kalimat. memperbaikinya Bagaimana? Kabar baiknya adalah ini mungkin tidak terlalu sulit untuk diperbaiki. Para peneliti menemukan bahwa memaksa model untuk fokus pada urutan kata, dengan melatihnya untuk melakukan tugas di mana urutan kata penting, seperti menemukan kesalahan tata bahasa, juga membuat model tersebut bekerja lebih baik pada tugas lain. Hal ini menunjukkan bahwa menyesuaikan tugas yang dilakukan oleh model akan membuatnya lebih baik secara keseluruhan. Hasil Nguyen adalah satu lagi contoh bagaimana model sering gagal dari apa yang orang yakini mampu mereka lakukan. Dia pikir itu menyoroti betapa sulitnya membuat AI yang memahami dan bernalar seperti manusia . “Tidak ada yang tahu,” katanya.
Komentar
Posting Komentar