Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-0615 (Softcopy SK-94) Source Code SK-85
Collection Type Skripsi
Title Pemotong imbuhan berdasarkan korpus untuk kata Bahasa Indonesia/ Muhammad Ichsan
Author Muhammad Ichsan;
Publisher Depok: Fasilkom UI, 2005
Subject Information retrieval; Text processing (Computer science)
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-0615 (Softcopy SK-94) Source Code SK-85 TERSEDIA
Tidak ada review pada koleksi ini: 9511
ABSTRAK

Information Retrieval (IR) secara umum merupakan suatu teknik untuk menemukan informasi di dalam kumpulan-kumpulan dokumen atau di dalam media-media lainnya dengan memberikan query atau pertanyaan berupa teks, suara, gambar atau bentuk-bentuk lainnya. Penerapannya yang paling sering dijumpai adalah search engine atau mesin pencari. Untuk meningkatkan jumlah dokumen yang diperoleh salah satunya dilakukan dengan menggunakan pemotong kata berimbuhan (stemmer). Stemmer merupakan salah satu alat bantu paling sederhana dalam bidang Information Retrieval. Stemmer digunakan untuk mendapatkan kata dasar atau bentuk yang lebih umum dari suatu kata sehingga mengurangi variasi kata pada dokumen-dokumen. Dengan demikian dokumen yang diinginkan akan semakin banyak diperoleh. Contohnya dokumen yang mengandung kata-kata berimbuhan pendapat, pendapatan, didapat dan sebagainya akan dirujuk oleh kata dasar yang sama yaitu dapat. Namun beberapa kata berimbuhan yang mempunyai kata dasar yang sama, memiliki makna yang berbeda. Sehingga kurang tepat apabila menyamakan seluruh variasi kata tersebut kepada kata dasarnya dengan menggunakan stemmer. Misalnya kata pendapat dengan pendapatan. Meskipun keduanya memiliki kata dasar yang sama, tapi hakikatnya keduanya memiliki makna yang sangat berbeda. Selain masalah perbedaan makna di atas, juga ada masalah terkait dengan jenis korpus. Jenis korpus yang dapat mempengaruhi makna kata. Misalnya, kata membintangi dan bintang. Pada kprpus astronomi kata membintangi tidak mempunyai makna yang sama dengan kata bintang. Sebaliknya pada korpus perfilman kedua kata ini bermakna sama yaitu perminan film. Sebuah penelitian mengenai stemmer yang berdasarkan pada korpus telah dilakukan untuk menghindari penyamarataan makna variasi kata. Stemmer yang telah diujikan pada bahasa Inggris dan Spanyol tersebut telah miningkatkan efektifitas sistem IR dalam mendapatkan informasi. Stemmer ini disebut stemmer corpus-based dengan menggunakan statistik co-occurrence dari variasi kata. Pada tulisan ini penulis mencoba untuk menggunakan teknik yang sama untuk menghindari penyamarataan makna variasi kata pada bahasa Indonesia. Karena pada bahasa indonesia terdapat banyak variasi kata yang berakar pada kata dasar yang sama, namun memiliki perbedaan makna. Penulis mencoba memperbaiki efektifitas penggunaan stemmer Indonesia yang sudah ada dengan teknik stemmer corpus-based dengan menggunakan statistik co-occurrence dari variasi kata. Penulis tidak melakukan penelitian pada masalah yang terkait dengan korpus topik tertentu karena keterbatasan korpus pada bahasa Indonesia. Berdasarkan pembahasan dan uji coba yang telah dilakukan dengan menggunakan korpus yang berisi dokumen dari Tempo dan Republika, dapat disimpulkan bahwa pengguna stemmer coepus-based dengan menggunakan statistik co-occurrence dari variasi kata (SVC) hanya menunjukkan sedikit perbaikan pada efektifitas sistem IR. Dibandingkan dengan perbaikan yang diperoleh dengan menggunakan stemmer masing-masing, dengan bantuan SVC, pada stemmer morfologi untuk bahasa Malaysia terjadi peningkatan akurasi sebesar 0.016% untuk korpus Tempo dan 0.039% korpus Republika, stemmer morfologi untuk bahasa Indonesia 0.016% untuk korpus Tempo dan 0.16 % untuk korpus Republika, dan stemmer Indonesia berdasarkan algoritma Porter 2.27% untuk korpus Tempo dan 0.16% untuk korpus Republika. Pada Stemmer SVC ini juga tidak terlihat kaitan antara naik atau turunnya presisi dengan perubahan variabel window. Sampled pair dan threshold.