AI yang membaca kalimat juga dapat melihat mutasi virus
Galileo pernah mengamati bahwa alam ditulis dalam matematika. Biologi mungkin ditulis dengan kata-kata. Algoritme pemrosesan bahasa alami (NLP) sekarang dapat menghasilkan urutan protein dan memprediksi mutasi virus, termasuk perubahan kunci yang membantu coronavirus menghindari kekebalan sistem.Wawasan utama yang memungkinkan hal ini adalah bahwa banyak sifat sistem biologis dapat diinterpretasikan dalam bentuk kata dan kalimat. "Kami sedang mempelajari bahasa evolusi," kata Bonnie Berger, ahli biologi komputasi di Massachusetts Institute of Technology. Dalam beberapa tahun terakhir, beberapa peneliti — termasuk tim dari laboratorium ahli genetika George Church dan Salesforce — telah menunjukkan bahwa urutan protein dan kode genetik, yang keduanya dapat direpresentasikan sebagai rangkaian huruf, dapat dimodelkan menggunakan teknik NLP. Dalam sebuah penelitian yang diterbitkan di Science hari ini, Berger dan rekan-rekannya menarik beberapa dari untaian ini bersama-sama dan menggunakan NLP untuk memprediksi mutasi yang memungkinkan virus untuk tidak terdeteksi oleh antibodi dalam sistem kekebalan manusia, sebuah proses yang dikenal sebagai pelarian kekebalan virus. Ide dasarnya adalah bahwa penafsiran virus oleh sistem kekebalan adalah analog dengan penafsiran kalimat oleh manusia. “Ini makalah yang rapi, membangun momentum dari pekerjaan sebelumnya,” kata Ali Madani, seorang ilmuwan di Salesforce, yang menggunakan NLP untuk memprediksi urutan protein . Tim Berger menggunakan dua konsep linguistik yang berbeda: tata bahasa dan semantik (atau makna). Kesesuaian genetik atau evolusioner dari suatu virus — ciri-ciri seperti seberapa baik virus itu menginfeksi inang — dapat ditafsirkan dalam istilah ketepatan tata bahasa. Virus yang berhasil dan menular benar secara tata bahasa; yang tidak berhasil tidak. Demikian pula, mutasi virus dapat diartikan dalam istilah semantik. Mutasi yang membuat virus tampak berbeda dengan hal-hal di lingkungannya — seperti perubahan protein permukaannya yang membuatnya tidak terlihat oleh antibodi tertentu — telah mengubah maknanya. Virus dengan mutasi yang berbeda dapat memiliki arti yang berbeda, dan virus dengan arti yang berbeda mungkin memerlukan antibodi yang berbeda untuk membacanya. Untuk memodelkan properti ini, para peneliti menggunakan LSTM, sejenis jaringan saraf yang mendahului yang berbasis transformator yang digunakan oleh model bahasa besar seperti GPT-3. Jaringan lama ini dapat dilatih dengan data yang jauh lebih sedikit daripada transformator dan masih bekerja dengan baik untuk banyak aplikasi. Alih-alih jutaan kalimat, mereka melatih model NLP pada ribuan urutan genetik yang diambil dari tiga virus berbeda: 45.000 urutan unik untuk strain influenza, 60.000 untuk strain HIV, dan antara 3.000 dan 4.000 untuk strain Sars-Cov -2, virus penyebab covid-19. “Ada lebih sedikit data untuk virus korona karena pengawasan yang lebih sedikit,” kata Brian Hie, seorang mahasiswa pascasarjana di MIT, yang membuat model tersebut. Model NLP bekerja dengan menyandikan kata-kata dalam ruang matematika sedemikian rupa sehingga kata-kata dengan arti yang mirip lebih dekat daripada kata-kata dengan arti yang berbeda. Ini dikenal sebagai embedding. Untuk virus, penyematan urutan genetik mengelompokkan virus sesuai dengan kemiripan mutasinya. Hal ini memudahkan untuk memprediksi mutasi mana yang lebih mungkin untuk strain tertentu daripada yang lain. Tujuan keseluruhan dari pendekatan ini adalah untuk mengidentifikasi mutasi yang dapat membuat virus keluar dari sistem kekebalan tanpa membuatnya kurang menular — yaitu, mutasi yang mengubah makna virus tanpa membuatnya salah secara tata bahasa. Untuk menguji alat tersebut, tim menggunakan metrik umum untuk menilai prediksi yang dibuat oleh model pembelajaran mesin yang menilai akurasi pada skala antara 0,5 (tidak lebih baik dari kebetulan) dan 1 (sempurna). Dalam kasus ini, mereka mengambil mutasi teratas yang diidentifikasi oleh alat dan, menggunakan virus asli di laboratorium, memeriksa berapa banyak dari mereka yang merupakan mutasi pelarian yang sebenarnya. Hasilnya berkisar dari 0,69 untuk HIV hingga 0,85 untuk satu jenis virus korona. Ini lebih baik daripada hasil dari model mutakhir lainnya, kata mereka.
Komentar
Posting Komentar