Meningkatnya publikasi yang membahas penggunaan kecerdasan buatan umum (GAI), yaitu model bahasa besar (LLM), untuk tujuan kesehatan telah menimbulkan kebutuhan untuk memandu penulis mengenai praktik pelaporan yang transparan1,2. Meskipun LLM saat ini mendominasi, aplikasi GAI lainnya seperti model difusi dan model multimodal besar mulai populer3. Salah satu perbedaan utama antara GAI dan AI konvensional adalah kemampuan GAI untuk membuat informasi baru berdasarkan data pelatihannya. Metodologi yang berbeda-beda dan pelaporan yang tidak lengkap di antara penelitian yang menerapkan GAI untuk tujuan kesehatan mengurangi kemampuan pembaca untuk menafsirkan temuan penelitian secara akurat3yang merupakan isu yang sangat relevan ketika mengevaluasi efektivitas platform GAI yang kompleks dalam konteks layanan kesehatan.
Model GAI kini digunakan untuk menjawab berbagai pertanyaan penelitian di seluruh desain penelitian alternatif, yang memerlukan pedoman pelaporan baru4. Meskipun lebih dari 25 pedoman pelaporan membahas penelitian yang menerapkan kecerdasan buatan atau pembelajaran mesin dalam konteks layanan kesehatan, sangat sedikit standar pelaporan yang berlaku untuk penelitian yang melibatkan penerapan GAI dalam layanan kesehatan, sementara lebih sedikit lagi yang mematuhi standar metodologi kontemporer.5,6,7,8. Ketika editor jurnal mengadopsi standar pelaporan ini, peneliti mungkin didorong untuk melengkapi dan menyerahkan daftar periksa dan diagram metodologi untuk menyertai penyerahan mereka guna mengoptimalkan pelaporan transparan dari metode mereka. Oleh karena itu, penulis yang menerapkan model GAI dalam layanan kesehatan harus hati-hati mengidentifikasi pedoman pelaporan yang paling tepat untuk penelitian mereka, karena standar ini berisi item yang disesuaikan untuk penelitian yang melibatkan model GAI.5,6,7,8. Tujuan artikel ini adalah untuk merangkum pedoman pelaporan GAI terkini yang ketat dan menyoroti pedoman-pedoman yang sedang dalam pengembangan.
Pedoman pelaporan untuk GAI
Pemilihan pedoman pelaporan yang paling sesuai umumnya bergantung pada tujuan penelitian. Gambar 1 menyajikan daftar tujuan penelitian potensial yang saat ini ditangani oleh pedoman pelaporan. Pada saat penulisan, LLM adalah model GAI utama yang sedang dievaluasi dalam konteks layanan kesehatan, meskipun contoh populer lainnya mencakup model difusi dan model multimodal besar.9. Studi yang melibatkan LLM ditangani oleh Alat Pelaporan Penilaian Chatbot (CHART), Pelaporan Transparan model prediksi multivariabel untuk Prognosis Atau Diagnosis Individu (TRIPOD)-LLM, atau alat Kecerdasan Buatan Generatif dalam Penelitian Medis (GAMER)5,6,7,8.

Ikhtisar pedoman pelaporan GAI17,18,19,20,21,22,23,24,25.
Ringkasan bukti klinis dan saran kesehatan
CHART memberikan rekomendasi pelaporan untuk penelitian yang mengevaluasi model GAI atau chatbot berbasis GAI yang merangkum bukti klinis dan memberikan saran kesehatan—disebut studi Chatbot Health Advice (CHA)6,8. CHART juga dapat diterapkan pada studi model GAI yang berdiri sendiri, asalkan model tersebut berinteraksi dengan pengguna dalam bahasa alami, misalnya melalui antarmuka pemrograman aplikasi. Penyelidik harus menerapkan studi CHART untuk CHA yang mengevaluasi model GAI tunggal atau chatbot yang digerakkan oleh GAI, serta dalam studi perbandingan antara beberapa model GAI atau chatbot.6,8. Kerangka kerja ini juga relevan untuk evaluasi model GAI atau chatbot yang disesuaikan atau disesuaikan untuk ringkasan bukti atau saran kesehatan yang disesuaikan. Contohnya diberikan pada Gambar 1, ruang lingkup CHART mencakup bukti klinis atau saran kesehatan terkait dengan pencegahan kesehatan, skrining, diagnosis, pengobatan, prognosis, dan informasi kesehatan umum.6,8.
Pengembangan model, pembuatan dokumen, dan prediksi hasil
Penulis dapat menerapkan TRIPOD-LLM di berbagai kasus penggunaan, mulai dari pengembangan LLM de novo hingga penggunaan LLM untuk menghasilkan dokumen medis atau memprediksi hasil menggunakan data pasien5. Penulis TRIPOD-LLM juga merekomendasikan penggunaannya untuk studi yang menilai kemampuan LLM dalam tugas-tugas seperti:
-
A-<
Pemrosesan teks (misalnya, mengidentifikasi kategori objek yang telah ditentukan sebelumnya dalam kumpulan data, atau pengenalan entitas bernama)5.
-
A-<
Klasifikasi (misalnya, menentukan apakah catatan klinik menggunakan kata ganti pasien dengan benar).
-
A-<
Pengambilan informasi (misalnya, melatih model GAI untuk merespons pertanyaan pengguna menggunakan publikasi yang relevan)5.
-
A-<
Peringkasan (misalnya, menerjemahkan dokumen klinis ke dalam bahasa tertentu untuk pasien).
Gambar 1 menguraikan kasus penggunaan lebih lanjut, seperti halnya publikasi asli TRIPOD-LLM5. Rekomendasi pelaporan cocok untuk evaluasi satu LLM atau perbandingan antara beberapa LLM.
Menerapkan GAI untuk penulisan naskah
Studi yang dibahas sejauh ini telah mengevaluasi kinerja model GAI untuk tujuan studi tertentu. Namun, terdapat peningkatan minat dalam menerapkan model GAI untuk membantu penulisan naskah di seluruh desain penelitian tradisional7. Daripada berfokus pada performa model, pedoman pelaporan GAMER memberikan rekomendasi yang menangani studi yang seluruh atau sebagian naskahnya ditulis oleh model GAI untuk penelitian medis.7. Misalnya, penulis dapat menerapkan GAMER jika mereka menerapkan model GAI untuk membantu penulisan laporan kasus. Gambar 1 mencantumkan contoh tambahan.
Kekuatan dan keterbatasan pedoman pelaporan saat ini
Semua pedoman pelaporan yang dijelaskan di atas mengikuti panduan metodologis dari Jaringan Penelitian Peningkatan Kualitas dan Transparansi kesehatan; sebuah inisiatif internasional untuk meningkatkan transparansi penelitian kesehatan10,11. Pedoman pelaporan ini saat ini berlaku untuk LLM, sedangkan CHART dan TRIPOD-LLM dirancang sebagai dokumen hidup yang akan diperbarui secara berkala untuk merespons kemajuan di bidang ini.5,6,8. Penulis yang menerapkan desain penelitian konvensional seperti uji coba terkontrol secara acak atau studi kohort harus terus mematuhi alat yang relevan seperti CONsolidated Standards Of Reporting Trials (CONSORT) dan pedoman pelaporan Penguatan Pelaporan Studi OBservasional dalam Epidemiologi (STROBE) selain yang dijelaskan di sini.5,12.
Salah satu kekuatan pedoman pelaporan CHART adalah masukan dari perwakilan luas pemangku kepentingan lintas disiplin melalui 531 anggota selama konsensus Delphi. Meskipun sangat dapat diterapkan pada studi CHA, cakupannya sempit. Sebaliknya, TRIPOD-LLM berlaku untuk banyak kasus penggunaan yang melibatkan LLM, meskipun penerapan setiap item daftar periksa mungkin bergantung pada kasus penggunaan tertentu. Meskipun daftar periksa GAMER ringkas dan relevan secara khusus untuk penelitian medis, daftar tersebut mungkin kekurangan item penting yang disertakan dalam pedoman pelaporan lainnya.
Pedoman pelaporan dalam pengembangan
Ada beberapa pedoman pelaporan yang sedang dikembangkan termasuk pedoman pelaporan ChatGPT dan Artificial Intelligence Natural Large Language Models for Accountable Reporting and Use (CANGARU).13. CANGARU sedang dikembangkan berdasarkan standar metodologi yang kuat yang melibatkan tinjauan sistematik yang hidup, konsensus Delphi, dan pertemuan konsensus panel di antara para pemangku kepentingan internasional dan multidisiplin.14. Setelah dipublikasikan, peneliti mungkin tertarik dengan pedoman CANGARU ketika menggunakan LLM dalam penelitian akademis dan penulisan ilmiah. Pedoman CANGARU akan berlaku untuk penelitian di bidang kedokteran, tetapi juga untuk penelitian yang menggunakan LLM untuk penulisan naskah di sektor ilmiah non-medis lainnya.14.
Dalam bidang ekonomi kesehatan, para peneliti telah memulai kerangka kerja ELEVATE-GenAI dengan 10 item daftar periksa awal setelah tinjauan literatur yang ditargetkan, diskusi berulang, dan pengujian kegunaan untuk tinjauan sistematis dan pemodelan ekonomi kesehatan15. Saat ini terdiri dari kerangka terstruktur dan daftar periksa untuk implementasi praktis yang menggunakan sistem penilaian, dengan maksimal 3 poin diberikan per domain. Penulis merencanakan konsultasi pemangku kepentingan di berbagai disiplin ilmu melalui konsensus Delphi untuk meningkatkan validitas alat ini15.
Sebaliknya, perluasan Kriteria Konsolidasi untuk Pelaporan Penelitian Kualitatif (COREQ) untuk LLM (COREQ-LLM) akan membahas studi yang menggunakan LLM untuk penelitian kualitatif16. COREQ-LLM akan dikembangkan setelah tinjauan pelingkupan sistematis dan konsensus Delphi untuk mengidentifikasi item daftar periksa untuk membantu pelaporan transparan penelitian kualitatif yang melibatkan LLM. Pedoman pelaporan ini diharapkan akan mengatasi tren terkini dalam penelitian kualitatif di mana LLM digunakan untuk mendukung desain penelitian, pemrosesan data, analisis, interpretasi, dan interaksi langsung dengan data kualitatif.16.
Ini merupakan iterasi pertama dari pedoman pelaporan yang menangani lanskap penelitian GAI di bidang layanan kesehatan. Mereka membahas pengembangan model GAI serta penggunaan model GAI untuk penulisan naskah, merangkum bukti klinis, memberikan nasihat kesehatan, atau memprediksi hasil kesehatan menggunakan catatan kesehatan elektronik. Dokter, peneliti, editor jurnal, dan penerbit harus memperhatikan pedoman pelaporan ini dan berlaku untuk penelitian apa pun yang mengevaluasi penggunaan model GAI untuk tujuan kesehatan. Perulangan, perluasan, dan/atau pedoman pelaporan baru di masa depan akan mengimbangi sifat dinamis dari bidang ini. Para peneliti harus selalu mengikuti perkembangan literatur dan terus menerapkan standar pelaporan yang paling dapat diterapkan pada pekerjaan mereka seiring kita berupaya mewujudkan integrasi teknologi GAI dalam layanan kesehatan yang aman dan bertanggung jawab. Editor dan penerbit jurnal juga harus waspada terhadap pembaruan di bidang GAI dan terus mendorong penulis untuk mematuhi standar pelaporan yang relevan. Kami akan melakukan survei sistematis yang hidup terhadap pedoman pelaporan berorientasi GAI untuk membantu pembaca tetap mengikuti perkembangan lingkungan literatur GAI yang berkembang secara dinamis.