ABSTRAK
ABSTRAK
Nama : Isnaini Nurul Khasanah
Program Studi : Magister Ilmu Komputer
Judul : Penentuan Dasar Hukum pada Permohonan Banding di Putusan Pengadilan Pajak Indonesia dengan Pendekatan Klasifikasi Multilabel
Klasifikasi teks mulai banyak berkembang dan dilakukan di berbagai bidang, salah satunya adalah bidang hukum. Terdapat beberapa jenis klasifikasi teks, antara lain klasifikasi
biner, multilabel, dan multikelas. Klasifikasi multilabel umumnya lebih rumit dibandingkan dengan klasifikasi biner maupun klasifikasi multikelas. Hal ini karena satu data
dapat memiliki lebih dari satu label ataupun lebih. Bahkan jumlah label untuk satu data
dapat mencapai ratusan bahkan ribuan. Permasalahan inilah yang dinamakan klasifikasi
multilabel ekstrem. Klasifikasi multilabel ekstrem di ranah legal dapat dilakukan untuk
memprediksi ayat, pasal, maupun undang-undang berdasarkan teks putusan pengadilan
pajak Republik Indonesia. Metode-metode machine learning seperti Random Forest
Classifier yang digunakan bersamaan dengan 1 vs Rest Classifier mampu menghasilkan
kinerja yang baik untuk klasifikasi multilabel ekstrem tapi menghasilkan model dengan
ukuran yang besar. Sedangkan, metode deep learning, seperti convolutional neural
network (CNN) mampu secara efektif mengatasi masalah klasifikasi multilabel ekstrem
dan menghasilkan model dengan ukuran yang lebih efisien. Dalam penelitian ini, penulis
mengusulkan model single channel CNN + IndoBERT embedding untuk menyelesaikan
permasalahan klasifikasi multilabel ekstrem pada teks putusan pengadilan pajak Republik
Indonesia. Penulis menggunakan tiga skenario pelabelan yakni label level ayat, level
pasal, dan level undang-undang. Model usulan penulis mampu mengungguli kinerja
model baseline (CNN + Word2Vec), model single channel CNN + fastText embedding,
dan model multiple channel CNN + IndoBERT embedding dengan F1 score sebesar
71.2% pada skenario pelabelan level ayat dan F1 score sebesar 73.3% pada pelabelan
level pasal. Lalu, pada pelabelan level undang-undang, kinerja model usulan masih
mengungguli kinerja model baseline dan model single channel CNN + fastText dengan
F1 score sebesar 84.5%, tapi kinerja terbaik ditunjukan oleh model multiple channel
CNN + IndoBERT dengan F1 score sebesar 84.9%. Hasil ini menunjukkan bahwa model
usulan mampu digunakan untuk menyelesaikan permasalahan klasifikasi multilabel
ekstrim pada putusan pengadilan pajak Republik Indonesia. Selain itu, penelitian juga
menunjukkan bahwa penggunaan IndoBERT embedding mampu meningkatkan kinerja
model CNN dengan teks masukan berbahasa Indonesia.
Kata kunci:
cnn, fasttext, indobert, klasifikasi teks, multilabel, multilabel ekstrem, neural network,
word2vec, word embedding
|