Dalam sebuah organisasi kecepatan dan keakuratan proses pencarian
informasi menjadi suatu masalah penting. Beberapa kendala yang menjadi penyebab masalah tersebut antara lain, karakteristik yang berbeda dalam setiap organisasi dan kerahasiaan dokumen dalam organisasi itu sendiri. Text REtrieval Conference (TREC) mengangkat masalah ini sebagai penelitian yang disebut dengan Enterprise Search Task. Salah satu tugas utama dalam Enterprise Search adalah pencarian pakar dalam koleksi dokumen perusahaan atau organisasi (Enterprise Expert Search). Permasalahan utama dari pencarian pakar ini adalah
bagaimana mengenali nama pakar dalam koleksi dokumen danbagaimana menemukan pakar yang sesuai dengan bidang tertentu.
Pada penelitian ini pengenalan nama akan dilakukan melalui proses
pengektraksian alamat e-mail dan URL dari halaman pribadi yang ada dalam organisasi. Sedangkan proses pencarian pakar dilakukan dengan menggunakan teknik pengelompokan dokumen. Pengelompokan dokumen dilakukan dengan 2 cara yaitu pengelompokan berdasarkan nama dan pengelompokan berdasarkan isi dokumen. Pengelompokan berdasarkan nama dilakukan dengan mengelompokan seluruh koleksi dokumen sesuai dengan daftar nama yang diperoleh dari proses
pengenalan nama. Setiap dokumen dapat memiliki lebih dari satu kelas nama karena dalam satu dokumen dapat muncul lebih dari satu nama. Pengelompokan berdasarkan nama dilakukan untuk memperoleh dokumen yang memiliki nama dan menghindari perolehan dokumen tanpa nama. Proses pencarian pakar dengan pengelompokan berdasarkan isi dokumen dilakukan dengan menggunakan agglomerative hierarchical clustering, dimana pengelompokan dilakukan dengan menghitung nilai kemiripan antar dokumen.
Pada penelitian ini ukuran kemiripan dilakukan berdasarkan centroid clustering yaitu penilaian kemiripan berdasarkan kemiripan centroid antar cluster. Jika dua cluster memiliki tingkat kemiripan yang tinggi maka cluster tersebut akan membentuk satu cluster.
Koleksi dokumen yang digunakan pada penelitian ini adalah koleksi TREC
2007 yaitu koleksi dokumen web dari Commonwealth Scientific and Industrial Research Organization (CSIRO). Topik dan relevance judgement yang digunakan berasal dari TREC 2007.
Hasil pengenalan nama dengan menggunakan alamat e-mail dan URL
halaman pribadi telah berhasil meningkatkan hasil pengenalan nama sebesar 6% dibandingkan hasil pengenalan nama berdasarkan alamat e-mail. Sedangkan untuk hasil eksperimen menggunakan pengelompokan berdasarkan nama, telah berhasil meningkatkan kinerja pencarian pakar sebesar 54.06% dibandingkan pencarian pakar tanpa pengelompokan. Pencarian pakar dengan menggunakan
pengelompokan berdasarkan isi dokumen mengalami peningkatan sebesar 7.97% dibandingkan pencarian pakar tanpa pengelompokan. Dari ketiga pencarian pakar ini sistem pencarian pakar dengan menggunakan pengelompokan berdasarkan nama merupakan sistem pencarian pakar yang paling baik.
xi + 112 hlm; 4 lamp; 26 gbr.
Biblipgrafi: 27 (1971 – 2008)
|
|