Penelitian menunjukkan bahwa rekayasa yang cepat meningkatkan kepatuhan AI terhadap pedoman medis
Dalam penelitian terbaru yang dipublikasikan di jurnal npj Digital Medicine, sekelompok peneliti menguji efektivitas rekayasa cepat dalam meningkatkan keandalan dan konsistensi large language models (LLMs) agar selaras dengan pedoman klinis berbasis bukti dalam bidang kedokteran.
Latar belakang
LLM telah mengalami kemajuan signifikan dalam pemrosesan
bahasa alami (NLP), menunjukkan harapan untuk aplikasi medis seperti diagnosis
dan kepatuhan pedoman. Namun, kinerja mereka di bidang medis bervariasi,
terutama dalam kasus-kasus kompleks dan konsistensi dengan pedoman, karena
perbedaan akurasi dan keandalan. Rekayasa cepat, yang bertujuan untuk
menyempurnakan permintaan guna mendapatkan respons yang lebih baik dari LLM,
tampaknya merupakan strategi yang menjanjikan untuk meningkatkan kinerja mereka
dalam konteks medis. Penelitian lebih lanjut diperlukan untuk meningkatkan
akurasi, keandalan, dan relevansi LLM dalam lingkungan medis, mendukung
pengambilan keputusan klinis dan perawatan pasien.
Tentang penelitian
Penelitian ini menguji konsistensi LLM terhadap pedoman
osteoartritis (OA) berbasis bukti dari American Academy of Orthopaedic Surgeons
(AAOS), didukung oleh bukti terperinci dan mencakup perawatan hingga pendidikan
pasien. AAOS, sebagai asosiasi spesialis muskuloskeletal global terbesar,
menawarkan pedoman OA yang didukung oleh bukti penelitian dan mencakup berbagai
rekomendasi manajemen, menjadikannya sumber daya yang berwenang di lapangan.
Studi ini menerapkan empat jenis perintah yang berbeda:
perintah Input-Output (IO), perintah Zero-Shot Chain of Thought (0-COT),
perintah Prompted Chain of Thought (P-COT), dan perintah Return on Thought
(ROT), dengan tujuan memeriksa kepatuhan LLM terhadap pedoman AAOS dan
keandalan tanggapan mereka atas pertanyaan berulang kali. Petunjuk ini
dirancang untuk memfasilitasi LLM dalam menghasilkan tanggapan yang akan
dievaluasi berdasarkan rekomendasi pedoman AAOS.
Sembilan LLM berbeda digunakan, diakses melalui antarmuka
web atau Antarmuka Pemrograman Aplikasi (API), dengan penyesuaian dilakukan
sesuai protokol yang dijelaskan pada platform OpenAI. Analisis statistik,
dilakukan dengan menggunakan SPSS dan Python, berfokus pada pengukuran
konsistensi dan keandalan tanggapan LLM. Konsistensi ditentukan oleh contoh di
mana rekomendasi LLM sama persis dengan pedoman AAOS. Pada saat yang sama,
reliabilitas diukur dengan pengulangan jawaban terhadap pertanyaan yang sama,
dinilai menggunakan tes Fleiss kappa.
Hasil studi
Temuan penelitian ini menyoroti transformator terlatih
generatif (gpt)-4-Web sebagai model unggul dalam hal konsistensi, menunjukkan
tingkat antara 50,6% dan 63% di berbagai permintaan. Sebagai perbandingan,
model lain seperti gpt-3.5-ft-0 dan gpt-4-API-0 menunjukkan tingkat konsistensi
yang lebih rendah dengan perintah tertentu, dengan konsistensi tertinggi
diamati dengan perintah ROT di gpt-4-Web. Hal ini menunjukkan bahwa integrasi
gpt-4-Web dengan permintaan ROT paling efektif sejalan dengan pedoman klinis.
Analisis terhadap berbagai model dan petunjuk menunjukkan tingkat konsistensi
yang beragam, dengan model gpt-4 mencapai hingga 62,9% dan model gpt-3,5,
termasuk versi yang telah disempurnakan, mencapai hingga 55,3%. Model Bard
menunjukkan rentang konsistensi dari 19,4% hingga 44,1%, yang menunjukkan
efektivitas variabel dari petunjuk di berbagai LLM yang berbeda.
Analisis subkelompok dilakukan berdasarkan kategorisasi
tingkat rekomendasi AAOS dari kuat hingga konsensus. Analisis ini bertujuan
untuk melihat apakah kekuatan bukti berdampak pada tingkat konsistensi. Ditemukan
bahwa pada tingkat bukti yang moderat, tidak ada perbedaan signifikan dalam
tingkat konsistensi yang diamati dalam gpt-4-Web. Namun, perbedaan penting
muncul pada tingkat bukti yang terbatas, di mana dorongan ROT dan IO secara
signifikan mengungguli dorongan P-COT di gpt-4-Web. Meskipun ada temuan ini,
tingkat konsistensi pada model lain umumnya masih di bawah 70%.
Penilaian reliabilitas menggunakan uji Fleiss kappa sangat
bervariasi antar model dan petunjuknya, dengan nilai berkisar antara -0,002
hingga 0,984. Variabilitas ini menunjukkan perbedaan tingkat keterulangan dalam
menanggapi pertanyaan yang sama di seluruh model dan petunjuk. Khususnya,
perintah IO di gpt-3.5-ft-0 dan gpt-3.5-API-0 menunjukkan keandalan yang hampir
sempurna, sementara perintah P-COT di gpt-4-API-0 menunjukkan keandalan yang
substansial. Namun, keandalan keseluruhan dari petunjuk dan model lainnya
adalah sedang atau rendah.
Data yang tidak valid dikategorikan dan diproses berdasarkan
prosedur tertentu, dengan sebagian besar respons terhadap perintah tertentu
dianggap tidak valid, khususnya di gpt-3.5-API-0. Hal ini berbeda dengan
gpt-4-Web, yang memiliki tingkat tanggapan tidak valid yang relatif rendah.
Kesimpulan
Ringkasnya, penelitian ini menyoroti dampak rekayasa cepat
terhadap keakuratan LLM dalam respons medis, khususnya mencatat kinerja unggul
gpt-4-Web dengan dorongan ROT dalam mematuhi pedoman klinis untuk OA. Ini
menggarisbawahi pentingnya menggabungkan rekayasa cepat, pengaturan parameter,
dan penyesuaian untuk meningkatkan utilitas LLM dalam pengobatan klinis. Temuan
ini menganjurkan eksplorasi lebih lanjut ke dalam strategi rekayasa cepat dan
pengembangan kerangka evaluasi yang melibatkan profesional kesehatan dan
pasien, yang bertujuan untuk meningkatkan efektivitas dan keandalan LLM dalam
pengaturan medis.
Journal reference:
Wang, L., Chen, X., Deng, X. et al. Prompt engineering in
consistency and reliability with the evidence-based guideline for LLMs. npj
Digit. Med. (2024). DOI- 10.1038/s41746-024-01029-4, https://www.nature.com/articles/s41746-024-01029-4
Post Comment
No comments