ABSTRAK
Nama : Nicholas Pangestu
Program Studi : Ilmu Komputer
Judul : Penggunaan Word Embedding dan Bobot Kata pada Algoritma
Textrank untuk Peringkasan Artikel Bahasa Indonesia
Pembimbing : Evi Yulianti, S.Kom., M.Kom. , M.Comp.Sc., Ph.D.
Meganingrum Arista Jiwanggi, S.Kom., M.Kom., M.C.S.
Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita,
hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan
dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan
untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan
dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan
diimplementasikan word embedding untuk membantu algoritma Textrank memahami
makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa
penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga
13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT
memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada
ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada
ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga
mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu
kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat
meningkatkan performa dari tiap model word embedding yang digunakan hingga 11%
pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa
pembobotan TF-IDF.
Kata Kunci:
peringkasan dokumen, peringkasan ekstraktif, textrank, tf-idf, word embedding
|
|