Breaking News

Penelitian menunjukkan bahwa rekayasa yang cepat meningkatkan kepatuhan AI terhadap pedoman medis

Dalam penelitian terbaru yang dipublikasikan di jurnal npj Digital Medicine, sekelompok peneliti menguji efektivitas rekayasa cepat dalam meningkatkan keandalan dan konsistensi large language models (LLMs) agar selaras dengan pedoman klinis berbasis bukti dalam bidang kedokteran.

Latar belakang

LLM telah mengalami kemajuan signifikan dalam pemrosesan bahasa alami (NLP), menunjukkan harapan untuk aplikasi medis seperti diagnosis dan kepatuhan pedoman. Namun, kinerja mereka di bidang medis bervariasi, terutama dalam kasus-kasus kompleks dan konsistensi dengan pedoman, karena perbedaan akurasi dan keandalan. Rekayasa cepat, yang bertujuan untuk menyempurnakan permintaan guna mendapatkan respons yang lebih baik dari LLM, tampaknya merupakan strategi yang menjanjikan untuk meningkatkan kinerja mereka dalam konteks medis. Penelitian lebih lanjut diperlukan untuk meningkatkan akurasi, keandalan, dan relevansi LLM dalam lingkungan medis, mendukung pengambilan keputusan klinis dan perawatan pasien.


Tentang penelitian

Penelitian ini menguji konsistensi LLM terhadap pedoman osteoartritis (OA) berbasis bukti dari American Academy of Orthopaedic Surgeons (AAOS), didukung oleh bukti terperinci dan mencakup perawatan hingga pendidikan pasien. AAOS, sebagai asosiasi spesialis muskuloskeletal global terbesar, menawarkan pedoman OA yang didukung oleh bukti penelitian dan mencakup berbagai rekomendasi manajemen, menjadikannya sumber daya yang berwenang di lapangan.

Studi ini menerapkan empat jenis perintah yang berbeda: perintah Input-Output (IO), perintah Zero-Shot Chain of Thought (0-COT), perintah Prompted Chain of Thought (P-COT), dan perintah Return on Thought (ROT), dengan tujuan memeriksa kepatuhan LLM terhadap pedoman AAOS dan keandalan tanggapan mereka atas pertanyaan berulang kali. Petunjuk ini dirancang untuk memfasilitasi LLM dalam menghasilkan tanggapan yang akan dievaluasi berdasarkan rekomendasi pedoman AAOS.

Sembilan LLM berbeda digunakan, diakses melalui antarmuka web atau Antarmuka Pemrograman Aplikasi (API), dengan penyesuaian dilakukan sesuai protokol yang dijelaskan pada platform OpenAI. Analisis statistik, dilakukan dengan menggunakan SPSS dan Python, berfokus pada pengukuran konsistensi dan keandalan tanggapan LLM. Konsistensi ditentukan oleh contoh di mana rekomendasi LLM sama persis dengan pedoman AAOS. Pada saat yang sama, reliabilitas diukur dengan pengulangan jawaban terhadap pertanyaan yang sama, dinilai menggunakan tes Fleiss kappa.


Hasil studi

Temuan penelitian ini menyoroti transformator terlatih generatif (gpt)-4-Web sebagai model unggul dalam hal konsistensi, menunjukkan tingkat antara 50,6% dan 63% di berbagai permintaan. Sebagai perbandingan, model lain seperti gpt-3.5-ft-0 dan gpt-4-API-0 menunjukkan tingkat konsistensi yang lebih rendah dengan perintah tertentu, dengan konsistensi tertinggi diamati dengan perintah ROT di gpt-4-Web. Hal ini menunjukkan bahwa integrasi gpt-4-Web dengan permintaan ROT paling efektif sejalan dengan pedoman klinis. Analisis terhadap berbagai model dan petunjuk menunjukkan tingkat konsistensi yang beragam, dengan model gpt-4 mencapai hingga 62,9% dan model gpt-3,5, termasuk versi yang telah disempurnakan, mencapai hingga 55,3%. Model Bard menunjukkan rentang konsistensi dari 19,4% hingga 44,1%, yang menunjukkan efektivitas variabel dari petunjuk di berbagai LLM yang berbeda.

Analisis subkelompok dilakukan berdasarkan kategorisasi tingkat rekomendasi AAOS dari kuat hingga konsensus. Analisis ini bertujuan untuk melihat apakah kekuatan bukti berdampak pada tingkat konsistensi. Ditemukan bahwa pada tingkat bukti yang moderat, tidak ada perbedaan signifikan dalam tingkat konsistensi yang diamati dalam gpt-4-Web. Namun, perbedaan penting muncul pada tingkat bukti yang terbatas, di mana dorongan ROT dan IO secara signifikan mengungguli dorongan P-COT di gpt-4-Web. Meskipun ada temuan ini, tingkat konsistensi pada model lain umumnya masih di bawah 70%.

Penilaian reliabilitas menggunakan uji Fleiss kappa sangat bervariasi antar model dan petunjuknya, dengan nilai berkisar antara -0,002 hingga 0,984. Variabilitas ini menunjukkan perbedaan tingkat keterulangan dalam menanggapi pertanyaan yang sama di seluruh model dan petunjuk. Khususnya, perintah IO di gpt-3.5-ft-0 dan gpt-3.5-API-0 menunjukkan keandalan yang hampir sempurna, sementara perintah P-COT di gpt-4-API-0 menunjukkan keandalan yang substansial. Namun, keandalan keseluruhan dari petunjuk dan model lainnya adalah sedang atau rendah.

Data yang tidak valid dikategorikan dan diproses berdasarkan prosedur tertentu, dengan sebagian besar respons terhadap perintah tertentu dianggap tidak valid, khususnya di gpt-3.5-API-0. Hal ini berbeda dengan gpt-4-Web, yang memiliki tingkat tanggapan tidak valid yang relatif rendah.


Kesimpulan

Ringkasnya, penelitian ini menyoroti dampak rekayasa cepat terhadap keakuratan LLM dalam respons medis, khususnya mencatat kinerja unggul gpt-4-Web dengan dorongan ROT dalam mematuhi pedoman klinis untuk OA. Ini menggarisbawahi pentingnya menggabungkan rekayasa cepat, pengaturan parameter, dan penyesuaian untuk meningkatkan utilitas LLM dalam pengobatan klinis. Temuan ini menganjurkan eksplorasi lebih lanjut ke dalam strategi rekayasa cepat dan pengembangan kerangka evaluasi yang melibatkan profesional kesehatan dan pasien, yang bertujuan untuk meningkatkan efektivitas dan keandalan LLM dalam pengaturan medis.


Journal reference:

Wang, L., Chen, X., Deng, X. et al. Prompt engineering in consistency and reliability with the evidence-based guideline for LLMs. npj Digit. Med. (2024). DOI- 10.1038/s41746-024-01029-4, https://www.nature.com/articles/s41746-024-01029-4

No comments