AI merevolusi prediksi fungsi protein dengan "DeepGO-SE"
Dalam penelitian terbaru yang dipublikasikan di jurnal Nature Machine Intelligence, para peneliti mengembangkan "DeepGO-SE," sebuah metode untuk memprediksi fungsi gene ontology (GO) dari rangkaian protein menggunakan model bahasa protein besar yang telah dilatih sebelumnya.
Meskipun prediksi struktur protein semakin akurat selama
bertahun-tahun, prediksi fungsi protein merupakan tantangan karena terbatasnya
jumlah fungsi yang diketahui, ditambah dengan interaksi dan kompleksitasnya. GO
digunakan untuk menggambarkan fungsi protein. GO mencakup tiga sub-ontologi
yang menggambarkan molecular functions(MFO) protein, perannya dalam biological
processes (BPO), dan cellular components (CCO)tempat mereka aktif.
Keterbatasan signifikan dari beberapa metode prediksi fungsi
adalah ketergantungannya pada kesamaan urutan. Meskipun efektif untuk protein
dengan urutan serupa dan fungsi yang berkarakter baik, pendekatan ini kurang
dapat diandalkan untuk protein yang tidak memiliki atau sedikit kesamaan
urutan. Selain itu, fungsi protein terutama didasarkan pada strukturnya, dan
protein dengan struktur serupa dapat memiliki urutan yang berbeda.
Latar belakang pengetahuan yang terkandung dalam aksioma GO
dapat dimanfaatkan melalui model pembelajaran mesin untuk meningkatkan
prediksi. Hanya ada beberapa metode yang memanfaatkan aksioma formal di GO.
Metode klasifikasi hierarki, seperti DeePred, TALE, DeepGO, dan GOStruct2 menggunakan
aksioma subsumsi tetapi mengabaikan aksioma lain yang dapat digunakan untuk
membatasi ruang pencarian dan meningkatkan prediksi.
Studi dan temuan
Dalam penelitian ini, para peneliti mengembangkan metode
prediksi fungsi protein, DeepGO-SE, menggunakan model bahasa protein besar yang
telah dilatih sebelumnya. DeepGO-SE menerapkan pembelajaran yang meningkatkan
pengetahuan melalui keterlibatan semantik dalam tiga langkah. Pertama, model
perkiraan dihasilkan menggunakan ELEmbeddings berdasarkan teori logis yang
terdiri dari aksioma GO (latar belakang pengetahuan) dan pernyataan tentang
protein seperti "protein memiliki fungsi C."
Selanjutnya, protein tunggal diwakili oleh evolutionary
scale model 2 (ESM2) dan digunakan sebagai contoh dalam model perkiraan untuk
memaksimalkan kebenaran pernyataan sebagai tujuan pengoptimalan. Akhirnya,
prosedur ini diulangi untuk menghasilkan k model perkiraan; keterlibatan
didefinisikan sebagai kebenaran dalam semua model, dan model k digunakan untuk
perkiraan keterlibatan semantik.
Para peneliti membandingkan metode mereka dengan lima metode
dasar menggunakan kumpulan data UniProtKB/Swiss-Prot. Metode dasar adalah
pendekatan naif, multilayer perceptron (MLP), DeepGraphGO, DeepGoZero, dan
DeepGOCNN. Sub-ontologi GO dilatih dan dievaluasi secara terpisah. DeepGO-SE
secara signifikan mengungguli metode dasar.
Left: protein p is embedded in a vector space using ESM2
model. Right: multiple models with an MLP that embeds the protein in the same
space as the GO axioms. Furthermore, predictions from multiple models are
combined to perform approximate semantic entailment.
Dalam MFO, ukuran F maksimum (F max) DeepGO-SE adalah 0,554,
7% lebih besar dibandingkan metode DeepGoZero dan MLP. Di BPO, F max (0,432) 8%
lebih tinggi dari DeepGraphGO. Di CCO, DeepGO-SE mencapai F max 0,721.
Selanjutnya, tim memodifikasi penyematan protein untuk mengkodekan informasi
tambahan mengenai proteom dan interaksinya.
Untuk tujuan ini, vektor masukan ke DeepGO-SE diubah, dan
tiga percobaan dilakukan. Pertama, penyematan ESM2 digunakan sebagai masukan
untuk setiap protein di DeepGOGAT-SE. Selanjutnya, anotasi eksperimental
protein terhadap fungsi molekuler digunakan sebagai masukan dalam
DeepGOGATMF-SE. Terakhir, skor prediksi turunan model DeepGO-SE untuk fungsi
molekuler digunakan sebagai masukan dalam DeepGOGATMF-SE-Pred.
Menggabungkan penyematan ESM2 dan protein-protein
interactions (PPIs) di DeepGOGAT-SE menurunkan kinerja prediksi MFO (F maks:
0,525) tetapi sedikit meningkatkan jarak semantik minimum (S min). Selain itu,
prediksi BPO ditingkatkan (F max: 0,435). Khususnya, kinerja BPO terbaik
diamati dengan DeepGOGATMF-SE (F max: 0.448), diikuti oleh DeepGOGATMF-SE-Pred
(F max: 0.444). Mengintegrasikan PPI di DeepGO-SE meningkatkan F max untuk CCO
menjadi 0,736.
Tim juga mengevaluasi metode dasar mereka menggunakan
dataset neXtPro (fungsi protein yang diprediksi secara manual). Mereka
menemukan bahwa DeepGO-SE mencapai F max terbaik (0,386). DeepGOGAT-SE memiliki
performa terbaik untuk BPO, dengan F maksimal 0,35. Tim tidak dapat
mengevaluasi metode DeepGOGATMF-SE-Pred karena banyak protein tidak memiliki
fungsi molekuler manual.
Terakhir, studi ablasi dilakukan untuk menilai kontribusi
masing-masing komponen model. Fungsi kerugian aksioma ELEmbeddings telah
dihapus untuk setiap model, dan kehilangan prediksi fungsi dioptimalkan.
Menghapus aksioma kerugian dari DeepGO-SE mengurangi kinerja MFO tanpa berdampak
pada kinerja BPO dan CCO.
Di DeepGOGAT-SE, menghapus aksioma dan modul keterlibatan
semantik sedikit meningkatkan kinerja MFO tetapi mengurangi kinerja BPO dan
CCO. Kinerja BPO dan CCO lebih baik ketika aksioma dan keterlibatan semantik
dihilangkan dalam model yang menggunakan fungsi molekuler dan PPI sebagai
fitur.
Kesimpulan
Secara keseluruhan, DeepGO-SE adalah metode prediksi fungsi
protein yang ditingkatkan yang menggabungkan fitur urutan yang berasal dari
model bahasa protein terlatih, pengetahuan latar belakang GO, dan PPI. Ia dapat
memprediksi BPO dan CCO hanya dari rangkaian protein; namun, informasi PPI
diperlukan untuk hasil terbaik. Karena banyak protein baru tidak memiliki
interaksi yang diketahui, metode yang memprediksi interaksi protein baru hanya
dari urutannya diperlukan.
Journal reference:
Kulmanov M, Guzmán-Vega FJ, Duek Roggli P, Lane L, Arold ST,
Hoehndorf R. Protein function prediction as approximate semantic entailment.
Nat Mach Intell. Published online February 14, 2024, DOI:
10.1038/s42256-024-00795-w, https://www.nature.com/articles/s42256-024-00795-w
No comments