Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number T-0958 (Softcopy T-0619)
Collection Type Tesis
Title Penerapan teknik pengurutan ulang untuk perolehan entitas pada koleksi dokumen web
Author Ananda Budi Prasetya;
Publisher Depok: Fasilkom UI, 2011
Subject Ontology
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
T-0958 (Softcopy T-0619) TERSEDIA
Tidak ada review pada koleksi ini: 34529
ABSTRAK

Pandangan orang terhadap perolehan informasi Web sudah bergeser. Perolehan informasi Web tidak lagi digunakan untuk memperoleh dokumen yang mengandung informasi relevan dengan keinginan pencari informasi. Perolehan informasi Web dipandang sebagai sistem yang dapat menemukan langsung informasi spesifik yang diperlukan, dan bukan daftar dokumen Web yang relevan dengan kueri seperti pada mesin pencari saat ini. Koleksi dokumen yang digunakan dalam penelitian ini adalah koleksi dokumen Yahoo dan ClueWeb09. Daftar kueri dan keputusan relevansi yang digunakan adalah topik Entity List Completion (ELC) 2010 yang diselenggarakan Text REtrieval Conference (TREC). Tujuan utama dari penelitian ini adalah untuk mengetahui koleksi dokumen mana yang paling tepat digunakan dalam memperoleh kandidat entitas, untuk mencari teknik yang terbaik dalam melakukan perolehan kandidat entitas dan pengenalan kandidat entitas dari dokumen Web, serta untuk mengetahui teknik pengurutan ulang yang paling tepat digunakan dalam mengurutkan daftar kandidat entitas. Eksperimen yang dilakukan dalam penelitian bertujuan untuk memperoleh kandidat entitas yang sesuai dengan kueri yang diberikan. Dengan menggunakan teknik seperti POS Tagger, perluasan kueri berdasarkan contoh entitas, dan pengenalan nama entitas berdasarkan pendekatan ontology dilakukan untuk memperoleh dan mengenali kandidat entitas dari dokumenWeb. Setelah daftar kandidat entitas yang sesuai dengan kueri ditemukan, berikutnya akan dilakukan proses pengurutan daftar kandidat entitas berdasarkan frekuensi kemunculan setiap kandidat entitas dalam dokumen Web. Setelah pengurutan daftar kandidat entitas selesai, akan dilakukan pengurutan ulang yang menggunakan teknik kemiripan semantik untuk menghitung keterkaitan antar entitas. Pendekatan yang dilakukan ada dua, yaitu pendekatan statistik dan semantik. Untuk pendekatan statistik, pengurutan ulang dilakukan dengan mencari keterkaitan antar entitas dengan menggunakan teknik co-occurrence (berdasarkan kedekatan kata) dan Pointwise Mutual Information (PMI). Untuk penviii dekatan semantik, pengurutan ulang dilakukan dengan mencari keterkatian antar entitas dengan menggunakan teknik Ontology Reference Path (ORP), yang mengukur jumlah entitas subyek, predikat, ataupun obyek yang dirujuk bersama oleh kedua entitas yang dibandingkan. Hasil perolehan kandidat entitas terhadap koleksi dokumen Yahoo menghasilkan jumlah kandidat entitas terkait yang relevan sama banyaknya dengan perolehan kandidat entitas terhadap koleksi dokumen ClueWeb09. Akan tetapi dari teknik pengurutan dan pengurutan ulang yang digunakan terhadap masing-masing daftar kandidat entitas terkait yang dihasilkan dari dua koleksi dokumen tersebut, teknik terbaik dalam melakukan pengurutan dan pengurutan ulang adalah teknik PMI. Apabila kedua daftar kandidat entitas yang dihasilkan dari koleksi dokumen Yahoo dan ClueWeb09 dibandingkan, maka hasil terbaik diperoleh dengan menggunakan koleksi dokumenWeb Yahoo dalam melakukan perolehan kandidat entitas dan melakukan pengurutan ulang dengan menggunakan teknik PMI.