ABSTRAK
Nama : Gibran Brahmanta Patriajati
Program Studi : Ilmu Komputer
Judul : Analisis Performa Pendekatan Topic Modeling dan Simi-
larity Measure untuk Text Summarization secara Ekstraktif
pada Teks Berbahasa Indonesia
Text Summarization secara ekstraktif merupakan suatu isu yang dapat meningkatkan
kualitas pengalaman pengguna ketika menggunakan suatu sistem perolehan informasi.
Pada bahasa Inggris, terdapat beberapa penelitian terkait Text Summarization secara ek-
straktif salah satunya adalah penelitian Belwal et al. (2021) yang memperkenalkan suatu
metode Text Summarization secara ekstraktif yang berbasiskan proses Topic Modeling
serta Semantic Measure menggunakan WordNet. Sementara pada bahasa Indonesia, juga
terdapat beberapa penelitian terkait Text Summarization secara ekstraktif tetapi belum
ada yang menggunakan metode yang sama seperti yang diperkenalkan oleh Belwal et al.
(2021). Agar metode yang diperkenalkan Belwal et al. (2021) dapat digunakan pada ba-
hasa Indonesia, proses Semantic Measure menggunakan WordNet harus diganti dengan
Similarity Measure menggunakan Vector Space Model karena tidak adanya model Word-
Net bahasa Indonesia yang dapat digunakan oleh umum. Dalam menggunakan metode
yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia, terdapat beberapa
metode yang dapat digunakan untuk melakukan Topic Modeling, Vector Space Model,
serta Similarity Measure yang terdapat di dalamnya. Penelitian ini berfokus untuk men-
cari kombinasi metode ketiga hal yang telah disebutkan sebelumnya yang dapat memak-
simalkan performa metode Text Summarization yang diperkenalkan oleh Belwal et al.
(2021) pada bahasa Indonesia dengan menggunakan pendekatan hill-climbing. Proses
evaluasi dilakukan dengan menggunakan metrik ROUGE-N dalam bentuk F-1 Score pada
dua buah dataset yaitu Liputan6 serta IndoSUM. Hasil penelitian menemukan bahwa
kombinasi metode yang dapat memaksimalkan performa metode Text Summarization se-
cara ekstraktif yang diperkenalkan oleh Belwal et al. (2021) adalah Non-Negative Matrix
Factorization untuk Topic Modeling, Word2Vec untuk Vector Space Model, serta Eu-
clidean Distance untuk Similarity Measure. Kombinasi metode tersebut memiliki nilai
ROUGE-1 sebesar 0.291, ROUGE-2 sebesar 0.140, dan ROUGE-3 sebesar 0.079 pada
dataset Liputan6. Sementara pada dataset IndoSUM, kombinasi metode tersebut memiliki
nilai ROUGE-1 sebesar 0.455, ROUGE-2 sebesar 0.337, dan ROUGE-3 sebesar 0.300.
Performa yang dihasilkan oleh kombinasi metode tersebut bersifat cukup kompetitif de-
ngan performa metode lainnya seperti TextRank serta metode berbasiskan model Deep
Learning BERT apabila dokumen masukannya bersifat koheren.
Kata kunci:
Text Summarization Ekstraktif, Topic Modeling, Vector Space Model, Similarity Mea-
sure, ROUGE-N
|
|