Barcode
Judul English
Head of post graduat
Examiners
Tim penguji 3
Muhamamd Rahmat Widyanto
No. Induk
Tim penguji 4
Wahyu Catur Wibowo
Kata Kunci
entity extraction, interaction extraction, medical text, supervised learning, unsupervised learning
Pembimbing 3
Pembimbing 2
Kopromotor
Muhamamd Ivan Fanany
Tahun buku
2017
Barcode RFID baru
11735219
Promotor
T. Basaruddin
Tim penguji 1
Lim Yohanes Stefanus
Abstrak Indonesia
ABSTRAK Bidang medis merupakan salah satu area dengan pertumbuhan data teks yang cepat. Salah satu informasi penting yang terkandung dalam dokumen medis adalah informasi obat dan interaksi antarobat. Penemuan informasi obat merupakan permasalahan yang esensial dalam area medis karena merupakan dasar penyelesaian permasalahan lain seperti interaksi antarobat, reaksi negatif penggunaan obat, atau pembuatan sistem informasi medis. Siknifikansi penyelesaian permasalahan penggalian informasi obat dan interaksi antarobat juga ditunjukkan dengan diadakannya berbagai kompetisi komputasi untuk keperluan ini. Sementara untuk kasus lokal dalam negeri, belum ada publikasi hasil penelitian komputasi untuk penggalian informasi obat dan interaksi antarobat dari dokumen medis. Berdasarkan kenyataan bahwa penggalian informasi terkait obat dari dokumen medis merupakan hal yang krusial dan studinya masih terus berkembang, sementara pada tingkat lokal nasional belum banyak dilakukan, permasalahan yang diusulkan untuk diselesaikan pada penelitian adalah bagaimana menyusun metode ekstraksi informasi nama obat dan interaksi antarobat dari sumber data teks medis. Pada penelitian ini digunakan dua jenis dataset. Dataset pertama berupa korpus label obat nasional dan dataset kedua adalah open dataset teks medis. Sesuai karakteristik masing-masing dataset, digunakan dua model pendekatan yaitu unsupervised dan supervised. Pendekatan unsupervised terdiri atas tahapan-tahapan: ekstraksi entitas, ekstraksi relasi antarentitas, dan pengelompokan entitas nama obat yang mirip berdasarkan kandungan obat. Untuk menyelesaikan permasalahan ekstraksi entitas dan relasi antarentitas diusulkan metode berbasis rule. Sementara untuk penyusunan kelompok entitas digunakan bi-clustering. Untuk menyelesaikan permasalahan ekstraksi entitas nama obat dan prediksi informasi informasi Drug-Drug Interaction (DDI) pada open dataset diusulkan model representasi data baru. Model representasi data ini mengatasi permasalahan multi token untuk entitas tunggal yang belum diselesaikan pada penelitian sebelumnya. Usulan representasi data baru ini diuji dengan beberapa model pembelajaran yaitu: Multi Layer Perceptor(MLP), Deep Belief Network (DBN), Sparse Auto Encoder (SAE) dan Long Short Term Memory (LSTM). Tantangan utama untuk permasalahan prediksi kandungan informasi DDI pada open dataset adalah kalimat yang tidak lengkap dan panjang kalimat yang sangat bervariasi. Untuk menyelesaikan tantangan ini diusulkan pemilihan fitur data berdasarkan kategori POS-Tagging token penyusun kalimat. Ujicoba metode usulan untuk dataset label obat menghasilkan nilai f-score lebih dari 0.9. Sementara uji coba pendekatan supervised yang diterapkan pada open dataset, kinerja terbaik ditunjukkan oleh model LSTM dengan f-score lebih dari 0.8. Eksperimen prediksi kelas DDI diterapkan pada dataset DrugBank. Hasil eksperimen menunjukkan nilai akurasi lebih dari 0.85 dengan nilai f-score terbaik 0.7397. Kata Kunci: ektraski interaksi, ekstraksi entitas, dokumen medis, supervised learning, unsupervised learning
Cat. Umum
Judul
Drug data mining dari teks medis dengan metode rule-based, bi clustering dan teknik represntasi data yang efisien
Co-Supervisor
Subjek
Pembimbing 1
Examiners 6
Examiners 5
Examiners 4
Supervisor
Examiners 3
Examiners 2
Examiners 1
Bibliografi
Pengarang
Mujiono;
Cat. Karya
Co-Supervisor 1
Tim Penguji 6
Timpenguji 2
Wisnu Jatmiko
Tim Penguji 7
Tim Penguji 5
Agus Buono
Co promotors
chair Person
Tanggal Datang
03/02/2017
Asal
Kopromotor 1
NPM
1306200973
Abstrak English
ABSTRACT The abundant source of text data in the medical field give rise to the possibility of doing text mining activity in this field with high probability of success. Drug and drug related information is one of the key information in the medical text data and the task of mining this information is an important task in the medical field because this task is the foundation of finding solutions for other problems such as drug-drug interaction, negative impact of drug use or even the development of a medical information system. Because its significance and importance, many computation contests had been held for getting this kind of information. Based on the author investigation, there have been no publication concerning text mining or other computation related to drug data or other drug related data in Indonesia. Due to the rising importance of drug and other related drug data mining from medical text and due to the growing interest in the subject studied while at the same time there has been no research in this specific field in the local scope of Indonesia, the research question to be answered in this study is how to provide the method to extract drug names information and drug-drug interaction information contained in medical text. The study employs two datasets. The first dataset is the national drug label text and the second is medical text from the open dataset of DrugBank and MedLine. The proposed method consists of three main tasks, which are entity extraction, relation extraction and similarity-based grouping. Entity extraction and relation extraction tasks are accomplished through the rule-based approach, while similarity-based drug grouping is performed with the bi-clustering approach. The main contribution in this study is a new data representation to solve the one-entity with multiple-tokens problem. The new data representation is used to do supervised learning on the drug name entity extraction and to predict the Drug-Drug Information (DDI) contained in sentences from the open datasets. This new data representation is evaluated with some learning models such as Multi-Layer Preceptor (MLP), Deep Belief Network (DBN), Sparse Auto Encoder (SAE) and Long Short Term Memory (LTSM). The biggest challenges in predicting the DDI information are incomplete sentence, variation in sentence size and variation in sentence structure. To solve the problems, this study proposes a feature selection process based on POS-tagging categorization to represent the dataset. The result of the experiment indicates that the unsupervised learning method performs better with an f-score of more than 0.9. The best supervised learning method is the LTSM model with an f-score of more than 0.8. When used to predict DDI information contained in the DrugBank dataset, the selection feature approach produces prediction accuracy of more than 0.85, while its best f-score is 0.7397. Keywords: entity extraction, interaction extraction, medical text, supervised learning, unsupervised learning
Pengarang 2
Chair of examiner
Fisik
xvii, hal. tak teratur ; 30 cm
Bahasa
Ind
Lulus Semester
Gasal 2016/2017
Penerbitan
Depok: Fakultas Ilmu Komputer UI, 2017
No. Panggil
Dis-59 (Softcopy Dis-50) Source Code Dis-26