AI yang membaca kalimat juga dapat melihat mutasi virus

Galileo pernah mengamati bahwa alam ditulis dalam matematika. Biologi mungkin ditulis dengan kata-kata. Algoritme pemrosesan bahasa alami (NLP) sekarang dapat menghasilkan urutan protein dan memprediksi mutasi virus, termasuk perubahan kunci yang membantu coronavirus menghindari kekebalan sistem.Wawasan utama yang memungkinkan hal ini adalah bahwa banyak sifat sistem biologis dapat diinterpretasikan dalam bentuk kata dan kalimat. "Kami sedang mempelajari bahasa evolusi," kata Bonnie Berger, ahli biologi komputasi di Massachusetts Institute of Technology. Dalam beberapa tahun terakhir, beberapa peneliti — termasuk tim dari laboratorium ahli genetika George Church dan Salesforce — telah menunjukkan bahwa urutan protein dan kode genetik, yang keduanya dapat direpresentasikan sebagai rangkaian huruf, dapat dimodelkan menggunakan teknik NLP. Dalam sebuah penelitian yang diterbitkan di Science hari ini, Berger dan rekan-rekannya menarik beberapa dari untaian ini bersama-sama dan menggunakan NLP untuk memprediksi mutasi yang memungkinkan virus untuk tidak terdeteksi oleh antibodi dalam sistem kekebalan manusia, sebuah proses yang dikenal sebagai pelarian kekebalan virus. Ide dasarnya adalah bahwa penafsiran virus oleh sistem kekebalan adalah analog dengan penafsiran kalimat oleh manusia. “Ini makalah yang rapi, membangun momentum dari pekerjaan sebelumnya,” kata Ali Madani, seorang ilmuwan di Salesforce, yang menggunakan NLP untuk memprediksi urutan protein . Tim Berger menggunakan dua konsep linguistik yang berbeda: tata bahasa dan semantik (atau makna). Kesesuaian genetik atau evolusioner dari suatu virus — ciri-ciri seperti seberapa baik virus itu menginfeksi inang — dapat ditafsirkan dalam istilah ketepatan tata bahasa. Virus yang berhasil dan menular benar secara tata bahasa; yang tidak berhasil tidak. Demikian pula, mutasi virus dapat diartikan dalam istilah semantik. Mutasi yang membuat virus tampak berbeda dengan hal-hal di lingkungannya — seperti perubahan protein permukaannya yang membuatnya tidak terlihat oleh antibodi tertentu — telah mengubah maknanya. Virus dengan mutasi yang berbeda dapat memiliki arti yang berbeda, dan virus dengan arti yang berbeda mungkin memerlukan antibodi yang berbeda untuk membacanya. Untuk memodelkan properti ini, para peneliti menggunakan LSTM, sejenis jaringan saraf yang mendahului yang berbasis transformator yang digunakan oleh model bahasa besar seperti GPT-3. Jaringan lama ini dapat dilatih dengan data yang jauh lebih sedikit daripada transformator dan masih bekerja dengan baik untuk banyak aplikasi. Alih-alih jutaan kalimat, mereka melatih model NLP pada ribuan urutan genetik yang diambil dari tiga virus berbeda: 45.000 urutan unik untuk strain influenza, 60.000 untuk strain HIV, dan antara 3.000 dan 4.000 untuk strain Sars-Cov -2, virus penyebab covid-19. “Ada lebih sedikit data untuk virus korona karena pengawasan yang lebih sedikit,” kata Brian Hie, seorang mahasiswa pascasarjana di MIT, yang membuat model tersebut. Model NLP bekerja dengan menyandikan kata-kata dalam ruang matematika sedemikian rupa sehingga kata-kata dengan arti yang mirip lebih dekat daripada kata-kata dengan arti yang berbeda. Ini dikenal sebagai embedding. Untuk virus, penyematan urutan genetik mengelompokkan virus sesuai dengan kemiripan mutasinya. Hal ini memudahkan untuk memprediksi mutasi mana yang lebih mungkin untuk strain tertentu daripada yang lain. Tujuan keseluruhan dari pendekatan ini adalah untuk mengidentifikasi mutasi yang dapat membuat virus keluar dari sistem kekebalan tanpa membuatnya kurang menular — yaitu, mutasi yang mengubah makna virus tanpa membuatnya salah secara tata bahasa. Untuk menguji alat tersebut, tim menggunakan metrik umum untuk menilai prediksi yang dibuat oleh model pembelajaran mesin yang menilai akurasi pada skala antara 0,5 (tidak lebih baik dari kebetulan) dan 1 (sempurna). Dalam kasus ini, mereka mengambil mutasi teratas yang diidentifikasi oleh alat dan, menggunakan virus asli di laboratorium, memeriksa berapa banyak dari mereka yang merupakan mutasi pelarian yang sebenarnya. Hasilnya berkisar dari 0,69 untuk HIV hingga 0,85 untuk satu jenis virus korona. Ini lebih baik daripada hasil dari model mutakhir lainnya, kata mereka.

Peringatan sebelumnya

Mengetahui mutasi apa yang mungkin akan datang dapat memudahkan rumah sakit dan otoritas kesehatan masyarakat untuk merencanakan ke depan. Misalnya, meminta model untuk memberi tahu Anda seberapa banyak strain flu telah berubah maknanya sejak tahun lalu akan memberi Anda gambaran tentang seberapa baik antibodi yang telah dikembangkan orang akan bekerja tahun ini. Tim mengatakan sekarang menjalankan model pada varian baru dari virus corona, termasuk yang disebut mutasi Inggris , mink mutation dari Denmark, dan varian yang diambil dari Afrika Selatan, Singapura dan Malaysia. Mereka telah menemukan potensi tinggi untuk melarikan diri kekebalan pada semuanya — meskipun ini belum diuji di alam liar. Tetapi model itu melewatkan perubahan lain pada varian Afrika Selatan yang menimbulkan kekhawatiran karena memungkinkannya lolos dari vaksin. Mereka mencoba memahami mengapa demikian. "Ini terdiri dari beberapa mutasi dan kami yakin efek kombinatorial mulai berperan," kata Berger. Menggunakan NLP mempercepat proses yang lambat. Sebelumnya, genom virus yang diambil dari pasien covid-19 di rumah sakit dapat diurutkan dan mutasinya dibuat kembali dan dipelajari di laboratorium. Tapi itu bisa memakan waktu berminggu-minggu, kata Bryan Bryson, seorang ahli biologi di MIT, yang juga mengerjakan proyek tersebut. Model NLP langsung memprediksi potensi mutasi, yang memfokuskan pekerjaan lab dan mempercepatnya. “Saat yang luar biasa untuk mengerjakan ini,” kata Bryson. Urutan virus baru keluar setiap minggu. “Sangat liar untuk memperbarui model Anda secara bersamaan dan kemudian menjalankannya ke lab untuk mengujinya dalam eksperimen. Ini adalah biologi komputasi terbaik, "katanya. Tapi itu juga baru permulaan. Memperlakukan mutasi genetik sebagai perubahan makna dapat diterapkan dengan cara berbeda di seluruh biologi. “Analogi yang baik bisa sangat bermanfaat,” kata Bryson. Misalnya, Hie berpikir bahwa pendekatan mereka dapat diterapkan pada resistensi obat. “Pikirkan tentang protein kanker yang memperoleh resistensi terhadap kemoterapi atau protein bakteri yang memperoleh resistensi terhadap antibiotik,” katanya. Mutasi ini sekali lagi dapat dianggap sebagai perubahan makna: "Ada banyak cara kreatif kita dapat mulai menafsirkan model bahasa." “Saya pikir biologi sedang berada di puncak revolusi,” kata Madani. "Kami sekarang beralih dari sekadar mengumpulkan banyak data ke mempelajari cara memahaminya secara mendalam." Para peneliti mengamati kemajuan dalam NLP dan memikirkan analogi baru antara bahasa dan biologi untuk memanfaatkannya. Tapi Bryson, Berger dan Hie percaya bahwa persilangan ini bisa berjalan dua arah, dengan algoritma NLP baru yang terinspirasi oleh konsep biologi. “Biologi memiliki bahasanya sendiri,” kata Berger.

Komentar

Postingan populer dari blog ini

Pertarungan algoritma: Mengungkap AI ofensif

Begitulah cara kami kehilangan kendali atas wajah kami

Cara menjalin hubungan yang lebih baik dengan teknisi Anda