World Wide Web adalah pusat informasi raksasa yang terdistribusi. Pusat informasi ini dapat menjadi sumber pengetahuan yang menarik apabila dilakukan data mining terhadapnya. Pengetahuan yang diperoleh dari pusat informasi ini dapat digunakan untuk melakukan klasifikasi otomatis dari beberapa dokumen web atau email. Jaringan Syaraf Tiruan (JST) adalah suatu metode klasifikasi yang dipilih oleh penulis dalam menentukan kelas suatu email. Metode ini tersusun atas banyak processing elements dan terdapat koneksi yang memiliki bobot diantara processing elements tersebut. Nilai dalam tiap koneksi merepresentasikan pengetahuan yang dimiliki oleh JST tersebut dan nilainya dapat berubah seiring dengan fase pembelajaran yang dilalui. Lebih lanjut, algoritma pembelajaran yang digunakan dalam penelitian ini adalah backpropagation atau propagasi-balik. Adapun input dari JST adalah sebuah vektor, oleh karena itu perlu dilakukan pemrosesan dokumen sebelum email tersebut diklasifikasi. Pemrosesan dokumen yang dilakukan dalam penelitian ini meliputi penghapusan html tag, case folding, parsing, penghapusan stopwords, stemming dan pembentukan vector space. Dalam vector space model, komponen sebuah vektor mewakili terms yang ada pada suatu dokumen atau query. Komponen vektor itu sendiri adalah hasil pembobotan dari setiap terms yang ada dalam suatu dokumen. Di akhir penelitian, terdapat beberapa kesimpulan yang dihasilkan, yaitu penghapusan stopwords dan penggunaan stemming terhadap email yang akan diklasifikasi tidak memberi peningkatan kinerja yang signifikan. Selain itu proporsi training set dan testing set terbaik adalah 350 : 700, serta jumlah hidden layers terbaik bagi sebuah JST untuk mengklasifikasikan email berbahasa Indonesia sebanyak 4 buah.
Kata Kunci: Klasifikasi email, Stemming, Jaringan Syaraf Tiruan, Propagasi-Balik.
|
|