Barcode |
|
Judul English |
|
Head of post graduat |
|
Examiners |
|
Tim penguji 3 |
Muhamamd Rahmat Widyanto |
No. Induk |
|
Tim penguji 4 |
Wahyu Catur Wibowo |
Kata Kunci |
entity extraction, interaction extraction, medical text, supervised learning, unsupervised learning |
Pembimbing 3 |
|
Pembimbing 2 |
|
Kopromotor |
Muhamamd Ivan Fanany |
Tahun buku |
2017 |
Barcode RFID baru |
11735219 |
Promotor |
T. Basaruddin |
Tim penguji 1 |
Lim Yohanes Stefanus |
Abstrak Indonesia |
ABSTRAK
Bidang medis merupakan salah satu area dengan pertumbuhan data teks yang cepat.
Salah satu informasi penting yang terkandung dalam dokumen medis adalah informasi obat
dan interaksi antarobat. Penemuan informasi obat merupakan permasalahan yang esensial
dalam area medis karena merupakan dasar penyelesaian permasalahan lain seperti
interaksi antarobat, reaksi negatif penggunaan obat, atau pembuatan sistem informasi
medis. Siknifikansi penyelesaian permasalahan penggalian informasi obat dan interaksi
antarobat juga ditunjukkan dengan diadakannya berbagai kompetisi komputasi untuk
keperluan ini. Sementara untuk kasus lokal dalam negeri, belum ada publikasi hasil
penelitian komputasi untuk penggalian informasi obat dan interaksi antarobat dari
dokumen medis.
Berdasarkan kenyataan bahwa penggalian informasi terkait obat dari dokumen
medis merupakan hal yang krusial dan studinya masih terus berkembang, sementara pada
tingkat lokal nasional belum banyak dilakukan, permasalahan yang diusulkan untuk
diselesaikan pada penelitian adalah bagaimana menyusun metode ekstraksi informasi nama
obat dan interaksi antarobat dari sumber data teks medis. Pada penelitian ini digunakan
dua jenis dataset. Dataset pertama berupa korpus label obat nasional dan dataset kedua
adalah open dataset teks medis. Sesuai karakteristik masing-masing dataset, digunakan dua
model pendekatan yaitu unsupervised dan supervised. Pendekatan unsupervised terdiri atas
tahapan-tahapan: ekstraksi entitas, ekstraksi relasi antarentitas, dan pengelompokan
entitas nama obat yang mirip berdasarkan kandungan obat. Untuk menyelesaikan
permasalahan ekstraksi entitas dan relasi antarentitas diusulkan metode berbasis rule.
Sementara untuk penyusunan kelompok entitas digunakan bi-clustering.
Untuk menyelesaikan permasalahan ekstraksi entitas nama obat dan prediksi
informasi informasi Drug-Drug Interaction (DDI) pada open dataset diusulkan model
representasi data baru. Model representasi data ini mengatasi permasalahan multi token
untuk entitas tunggal yang belum diselesaikan pada penelitian sebelumnya. Usulan
representasi data baru ini diuji dengan beberapa model pembelajaran yaitu: Multi Layer
Perceptor(MLP), Deep Belief Network (DBN), Sparse Auto Encoder (SAE) dan Long Short
Term Memory (LSTM). Tantangan utama untuk permasalahan prediksi kandungan
informasi DDI pada open dataset adalah kalimat yang tidak lengkap dan panjang kalimat
yang sangat bervariasi. Untuk menyelesaikan tantangan ini diusulkan pemilihan fitur data
berdasarkan kategori POS-Tagging token penyusun kalimat.
Ujicoba metode usulan untuk dataset label obat menghasilkan nilai f-score lebih
dari 0.9. Sementara uji coba pendekatan supervised yang diterapkan pada open dataset,
kinerja terbaik ditunjukkan oleh model LSTM dengan f-score lebih dari 0.8. Eksperimen
prediksi kelas DDI diterapkan pada dataset DrugBank. Hasil eksperimen menunjukkan nilai
akurasi lebih dari 0.85 dengan nilai f-score terbaik 0.7397.
Kata Kunci: ektraski interaksi, ekstraksi entitas, dokumen medis, supervised learning,
unsupervised learning |
Cat. Umum |
|
Judul |
Drug data mining dari teks medis dengan metode rule-based, bi clustering dan teknik represntasi data yang efisien |
Co-Supervisor |
|
Subjek |
|
Pembimbing 1 |
|
Examiners 6 |
|
Examiners 5 |
|
Examiners 4 |
|
Supervisor |
|
Examiners 3 |
|
Examiners 2 |
|
Examiners 1 |
|
Bibliografi |
|
Pengarang |
Mujiono; |
Cat. Karya |
|
Co-Supervisor 1 |
|
Tim Penguji 6 |
|
Timpenguji 2 |
Wisnu Jatmiko |
Tim Penguji 7 |
|
Tim Penguji 5 |
Agus Buono |
Co promotors |
|
chair Person |
|
Tanggal Datang |
03/02/2017 |
Asal |
|
Kopromotor 1 |
|
NPM |
1306200973 |
Abstrak English |
ABSTRACT
The abundant source of text data in the medical field give rise to the possibility of doing
text mining activity in this field with high probability of success. Drug and drug related
information is one of the key information in the medical text data and the task of mining this
information is an important task in the medical field because this task is the foundation of
finding solutions for other problems such as drug-drug interaction, negative impact of drug
use or even the development of a medical information system. Because its significance and
importance, many computation contests had been held for getting this kind of information.
Based on the author investigation, there have been no publication concerning text mining
or other computation related to drug data or other drug related data in Indonesia.
Due to the rising importance of drug and other related drug data mining from medical
text and due to the growing interest in the subject studied while at the same time there has
been no research in this specific field in the local scope of Indonesia, the research question
to be answered in this study is how to provide the method to extract drug names information
and drug-drug interaction information contained in medical text. The study employs two
datasets. The first dataset is the national drug label text and the second is medical text from
the open dataset of DrugBank and MedLine. The proposed method consists of three main
tasks, which are entity extraction, relation extraction and similarity-based grouping. Entity
extraction and relation extraction tasks are accomplished through the rule-based approach,
while similarity-based drug grouping is performed with the bi-clustering approach.
The main contribution in this study is a new data representation to solve the one-entity
with multiple-tokens problem. The new data representation is used to do supervised learning
on the drug name entity extraction and to predict the Drug-Drug Information (DDI)
contained in sentences from the open datasets. This new data representation is evaluated
with some learning models such as Multi-Layer Preceptor (MLP), Deep Belief Network
(DBN), Sparse Auto Encoder (SAE) and Long Short Term Memory (LTSM). The biggest
challenges in predicting the DDI information are incomplete sentence, variation in sentence
size and variation in sentence structure. To solve the problems, this study proposes a feature
selection process based on POS-tagging categorization to represent the dataset.
The result of the experiment indicates that the unsupervised learning method
performs better with an f-score of more than 0.9. The best supervised learning method is the
LTSM model with an f-score of more than 0.8. When used to predict DDI information
contained in the DrugBank dataset, the selection feature approach produces prediction
accuracy of more than 0.85, while its best f-score is 0.7397.
Keywords: entity extraction, interaction extraction, medical text, supervised learning,
unsupervised learning |
Pengarang 2 |
|
Chair of examiner |
|
Fisik |
xvii, hal. tak teratur ; 30 cm |
Bahasa |
Ind |
Lulus Semester |
Gasal 2016/2017 |
Penerbitan |
Depok: Fakultas Ilmu Komputer UI, 2017 |
No. Panggil |
Dis-59 (Softcopy Dis-50) Source Code Dis-26 |