ABSTRAK

ABSTRAK Nama : Isnaini Nurul Khasanah Program Studi : Magister Ilmu Komputer Judul : Penentuan Dasar Hukum pada Permohonan Banding di Putusan Pengadilan Pajak Indonesia dengan Pendekatan Klasifikasi Multilabel Klasifikasi teks mulai banyak berkembang dan dilakukan di berbagai bidang, salah satunya adalah bidang hukum. Terdapat beberapa jenis klasifikasi teks, antara lain klasifikasi biner, multilabel, dan multikelas. Klasifikasi multilabel umumnya lebih rumit dibandingkan dengan klasifikasi biner maupun klasifikasi multikelas. Hal ini karena satu data dapat memiliki lebih dari satu label ataupun lebih. Bahkan jumlah label untuk satu data dapat mencapai ratusan bahkan ribuan. Permasalahan inilah yang dinamakan klasifikasi multilabel ekstrem. Klasifikasi multilabel ekstrem di ranah legal dapat dilakukan untuk memprediksi ayat, pasal, maupun undang-undang berdasarkan teks putusan pengadilan pajak Republik Indonesia. Metode-metode machine learning seperti Random Forest Classifier yang digunakan bersamaan dengan 1 vs Rest Classifier mampu menghasilkan kinerja yang baik untuk klasifikasi multilabel ekstrem tapi menghasilkan model dengan ukuran yang besar. Sedangkan, metode deep learning, seperti convolutional neural network (CNN) mampu secara efektif mengatasi masalah klasifikasi multilabel ekstrem dan menghasilkan model dengan ukuran yang lebih efisien. Dalam penelitian ini, penulis mengusulkan model single channel CNN + IndoBERT embedding untuk menyelesaikan permasalahan klasifikasi multilabel ekstrem pada teks putusan pengadilan pajak Republik Indonesia. Penulis menggunakan tiga skenario pelabelan yakni label level ayat, level pasal, dan level undang-undang. Model usulan penulis mampu mengungguli kinerja model baseline (CNN + Word2Vec), model single channel CNN + fastText embedding, dan model multiple channel CNN + IndoBERT embedding dengan F1 score sebesar 71.2% pada skenario pelabelan level ayat dan F1 score sebesar 73.3% pada pelabelan level pasal. Lalu, pada pelabelan level undang-undang, kinerja model usulan masih mengungguli kinerja model baseline dan model single channel CNN + fastText dengan F1 score sebesar 84.5%, tapi kinerja terbaik ditunjukan oleh model multiple channel CNN + IndoBERT dengan F1 score sebesar 84.9%. Hasil ini menunjukkan bahwa model usulan mampu digunakan untuk menyelesaikan permasalahan klasifikasi multilabel ekstrim pada putusan pengadilan pajak Republik Indonesia. Selain itu, penelitian juga menunjukkan bahwa penggunaan IndoBERT embedding mampu meningkatkan kinerja model CNN dengan teks masukan berbahasa Indonesia. Kata kunci: cnn, fasttext, indobert, klasifikasi teks, multilabel, multilabel ekstrem, neural network, word2vec, word embedding