Breaking News

AI merevolusi prediksi fungsi protein dengan "DeepGO-SE"

Dalam penelitian terbaru yang dipublikasikan di jurnal Nature Machine Intelligence, para peneliti mengembangkan "DeepGO-SE," sebuah metode untuk memprediksi fungsi gene ontology (GO) dari rangkaian protein menggunakan model bahasa protein besar yang telah dilatih sebelumnya.

Meskipun prediksi struktur protein semakin akurat selama bertahun-tahun, prediksi fungsi protein merupakan tantangan karena terbatasnya jumlah fungsi yang diketahui, ditambah dengan interaksi dan kompleksitasnya. GO digunakan untuk menggambarkan fungsi protein. GO mencakup tiga sub-ontologi yang menggambarkan molecular functions(MFO) protein, perannya dalam biological processes (BPO), dan cellular components (CCO)tempat mereka aktif.

Keterbatasan signifikan dari beberapa metode prediksi fungsi adalah ketergantungannya pada kesamaan urutan. Meskipun efektif untuk protein dengan urutan serupa dan fungsi yang berkarakter baik, pendekatan ini kurang dapat diandalkan untuk protein yang tidak memiliki atau sedikit kesamaan urutan. Selain itu, fungsi protein terutama didasarkan pada strukturnya, dan protein dengan struktur serupa dapat memiliki urutan yang berbeda.

Latar belakang pengetahuan yang terkandung dalam aksioma GO dapat dimanfaatkan melalui model pembelajaran mesin untuk meningkatkan prediksi. Hanya ada beberapa metode yang memanfaatkan aksioma formal di GO. Metode klasifikasi hierarki, seperti DeePred, TALE, DeepGO, dan GOStruct2 menggunakan aksioma subsumsi tetapi mengabaikan aksioma lain yang dapat digunakan untuk membatasi ruang pencarian dan meningkatkan prediksi.


Studi dan temuan

Dalam penelitian ini, para peneliti mengembangkan metode prediksi fungsi protein, DeepGO-SE, menggunakan model bahasa protein besar yang telah dilatih sebelumnya. DeepGO-SE menerapkan pembelajaran yang meningkatkan pengetahuan melalui keterlibatan semantik dalam tiga langkah. Pertama, model perkiraan dihasilkan menggunakan ELEmbeddings berdasarkan teori logis yang terdiri dari aksioma GO (latar belakang pengetahuan) dan pernyataan tentang protein seperti "protein memiliki fungsi C."

Selanjutnya, protein tunggal diwakili oleh evolutionary scale model 2 (ESM2) dan digunakan sebagai contoh dalam model perkiraan untuk memaksimalkan kebenaran pernyataan sebagai tujuan pengoptimalan. Akhirnya, prosedur ini diulangi untuk menghasilkan k model perkiraan; keterlibatan didefinisikan sebagai kebenaran dalam semua model, dan model k digunakan untuk perkiraan keterlibatan semantik.

Para peneliti membandingkan metode mereka dengan lima metode dasar menggunakan kumpulan data UniProtKB/Swiss-Prot. Metode dasar adalah pendekatan naif, multilayer perceptron (MLP), DeepGraphGO, DeepGoZero, dan DeepGOCNN. Sub-ontologi GO dilatih dan dievaluasi secara terpisah. DeepGO-SE secara signifikan mengungguli metode dasar.

Left: protein p is embedded in a vector space using ESM2 model. Right: multiple models with an MLP that embeds the protein in the same space as the GO axioms. Furthermore, predictions from multiple models are combined to perform approximate semantic entailment.


Dalam MFO, ukuran F maksimum (F max) DeepGO-SE adalah 0,554, 7% lebih besar dibandingkan metode DeepGoZero dan MLP. Di BPO, F max (0,432) 8% lebih tinggi dari DeepGraphGO. Di CCO, DeepGO-SE mencapai F max 0,721. Selanjutnya, tim memodifikasi penyematan protein untuk mengkodekan informasi tambahan mengenai proteom dan interaksinya.

Untuk tujuan ini, vektor masukan ke DeepGO-SE diubah, dan tiga percobaan dilakukan. Pertama, penyematan ESM2 digunakan sebagai masukan untuk setiap protein di DeepGOGAT-SE. Selanjutnya, anotasi eksperimental protein terhadap fungsi molekuler digunakan sebagai masukan dalam DeepGOGATMF-SE. Terakhir, skor prediksi turunan model DeepGO-SE untuk fungsi molekuler digunakan sebagai masukan dalam DeepGOGATMF-SE-Pred.

Menggabungkan penyematan ESM2 dan protein-protein interactions (PPIs) di DeepGOGAT-SE menurunkan kinerja prediksi MFO (F maks: 0,525) tetapi sedikit meningkatkan jarak semantik minimum (S min). Selain itu, prediksi BPO ditingkatkan (F max: 0,435). Khususnya, kinerja BPO terbaik diamati dengan DeepGOGATMF-SE (F max: 0.448), diikuti oleh DeepGOGATMF-SE-Pred (F max: 0.444). Mengintegrasikan PPI di DeepGO-SE meningkatkan F max untuk CCO menjadi 0,736.

Tim juga mengevaluasi metode dasar mereka menggunakan dataset neXtPro (fungsi protein yang diprediksi secara manual). Mereka menemukan bahwa DeepGO-SE mencapai F max terbaik (0,386). DeepGOGAT-SE memiliki performa terbaik untuk BPO, dengan F maksimal 0,35. Tim tidak dapat mengevaluasi metode DeepGOGATMF-SE-Pred karena banyak protein tidak memiliki fungsi molekuler manual.

Terakhir, studi ablasi dilakukan untuk menilai kontribusi masing-masing komponen model. Fungsi kerugian aksioma ELEmbeddings telah dihapus untuk setiap model, dan kehilangan prediksi fungsi dioptimalkan. Menghapus aksioma kerugian dari DeepGO-SE mengurangi kinerja MFO tanpa berdampak pada kinerja BPO dan CCO.

Di DeepGOGAT-SE, menghapus aksioma dan modul keterlibatan semantik sedikit meningkatkan kinerja MFO tetapi mengurangi kinerja BPO dan CCO. Kinerja BPO dan CCO lebih baik ketika aksioma dan keterlibatan semantik dihilangkan dalam model yang menggunakan fungsi molekuler dan PPI sebagai fitur.


Kesimpulan

Secara keseluruhan, DeepGO-SE adalah metode prediksi fungsi protein yang ditingkatkan yang menggabungkan fitur urutan yang berasal dari model bahasa protein terlatih, pengetahuan latar belakang GO, dan PPI. Ia dapat memprediksi BPO dan CCO hanya dari rangkaian protein; namun, informasi PPI diperlukan untuk hasil terbaik. Karena banyak protein baru tidak memiliki interaksi yang diketahui, metode yang memprediksi interaksi protein baru hanya dari urutannya diperlukan.


Journal reference:

Kulmanov M, Guzmán-Vega FJ, Duek Roggli P, Lane L, Arold ST, Hoehndorf R. Protein function prediction as approximate semantic entailment. Nat Mach Intell. Published online February 14, 2024, DOI: 10.1038/s42256-024-00795-w, https://www.nature.com/articles/s42256-024-00795-w

No comments