ABSTRAK
Bidang medis merupakan salah satu area dengan pertumbuhan data teks yang cepat.
Salah satu informasi penting yang terkandung dalam dokumen medis adalah informasi obat
dan interaksi antarobat. Penemuan informasi obat merupakan permasalahan yang esensial
dalam area medis karena merupakan dasar penyelesaian permasalahan lain seperti
interaksi antarobat, reaksi negatif penggunaan obat, atau pembuatan sistem informasi
medis. Siknifikansi penyelesaian permasalahan penggalian informasi obat dan interaksi
antarobat juga ditunjukkan dengan diadakannya berbagai kompetisi komputasi untuk
keperluan ini. Sementara untuk kasus lokal dalam negeri, belum ada publikasi hasil
penelitian komputasi untuk penggalian informasi obat dan interaksi antarobat dari
dokumen medis.
Berdasarkan kenyataan bahwa penggalian informasi terkait obat dari dokumen
medis merupakan hal yang krusial dan studinya masih terus berkembang, sementara pada
tingkat lokal nasional belum banyak dilakukan, permasalahan yang diusulkan untuk
diselesaikan pada penelitian adalah bagaimana menyusun metode ekstraksi informasi nama
obat dan interaksi antarobat dari sumber data teks medis. Pada penelitian ini digunakan
dua jenis dataset. Dataset pertama berupa korpus label obat nasional dan dataset kedua
adalah open dataset teks medis. Sesuai karakteristik masing-masing dataset, digunakan dua
model pendekatan yaitu unsupervised dan supervised. Pendekatan unsupervised terdiri atas
tahapan-tahapan: ekstraksi entitas, ekstraksi relasi antarentitas, dan pengelompokan
entitas nama obat yang mirip berdasarkan kandungan obat. Untuk menyelesaikan
permasalahan ekstraksi entitas dan relasi antarentitas diusulkan metode berbasis rule.
Sementara untuk penyusunan kelompok entitas digunakan bi-clustering.
Untuk menyelesaikan permasalahan ekstraksi entitas nama obat dan prediksi
informasi informasi Drug-Drug Interaction (DDI) pada open dataset diusulkan model
representasi data baru. Model representasi data ini mengatasi permasalahan multi token
untuk entitas tunggal yang belum diselesaikan pada penelitian sebelumnya. Usulan
representasi data baru ini diuji dengan beberapa model pembelajaran yaitu: Multi Layer
Perceptor(MLP), Deep Belief Network (DBN), Sparse Auto Encoder (SAE) dan Long Short
Term Memory (LSTM). Tantangan utama untuk permasalahan prediksi kandungan
informasi DDI pada open dataset adalah kalimat yang tidak lengkap dan panjang kalimat
yang sangat bervariasi. Untuk menyelesaikan tantangan ini diusulkan pemilihan fitur data
berdasarkan kategori POS-Tagging token penyusun kalimat.
Ujicoba metode usulan untuk dataset label obat menghasilkan nilai f-score lebih
dari 0.9. Sementara uji coba pendekatan supervised yang diterapkan pada open dataset,
kinerja terbaik ditunjukkan oleh model LSTM dengan f-score lebih dari 0.8. Eksperimen
prediksi kelas DDI diterapkan pada dataset DrugBank. Hasil eksperimen menunjukkan nilai
akurasi lebih dari 0.85 dengan nilai f-score terbaik 0.7397.
Kata Kunci: ektraski interaksi, ekstraksi entitas, dokumen medis, supervised learning,
unsupervised learning
|
|