Call Number | SK-2449 (softcopy SK-1931) |
Collection Type | Skripsi |
Title | Building a Retrieval Module for a Retrieval-Augmented Generation (RAG) System for Data Discovery Queries |
Author | David Alexander; |
Publisher | Depok: Fasilkom UI, 2024 |
Subject | Data discovery |
Location | FASILKOM-UI; |
Nomor Panggil | ID Koleksi | Status |
---|---|---|
SK-2449 (softcopy SK-1931) | TERSEDIA |
Nama : David Alexander Program Studi : Computer Science Judul : Membangun Modul Retrieval untuk Sistem RetrievalAugmented Generation (RAG) untuk Menjawab Pertanyaan Data Discovery Pembimbing : Adila Alfa Krisnadhi, S.Kom., M.Sc., Ph.D. Data discovery adalah masalah di mana analis menghabiskan lebih banyak waktu untuk mencari data yang relevan daripada menganalisisnya. Untuk mengatasi masalah ini, solusi seperti Aurum dan Ver telah dibuat untuk menangkap hubungan antara berbagai sumber data. Namun, solusi ini hanya melihat data dan tidak menangkap konteks yang mungkin dimiliki manusia saat memproduksi atau mengonsumsi data. Untuk menyelesaikan masalah ekstraksi dan penyimpanan informasi dari pengguna, dua masalah perlu diselesaikan: membuat pembuat data mendokumentasikan data dan menciptakan solusi untuk menyimpan dan mengambil konten yang relevan terkait dengan pertanyaan pengguna tentang data. Makalah ini berfokus pada bagian kedua dari masalah tersebut, yaitu menciptakan sistem untuk menyimpan dan mengambil konten yang relevan tentang data, yang akan dibuat sebagai sistem retrieval-augmented generation (RAG). Modul retrieval dibuat menggunakan indeks penyimpanan vektor di mana dokumen diubah menjadi embedding vektor. Ketika sebuah pertanyaan datang, model yang sama digunakan untuk mengubah pertanyaan menjadi embedding vektor. Kesamaan antara embedding pertanyaan dan dokumen dibandingkan dan dokumen paling mirip ter-k dengan pertanyaan dikembalikan. Beberapa model embedding dipilih dan dievaluasi berdasarkan waktu pembuatan indeks, hit rate, mean reciprocal rank (MRR), dan waktu pengambilan data. Model yang lebih kecil, berfokus pada pengambilan, dan berbahasa yang benar seperti bge-small-en-v1.5 direkomendasikan untuk pembuatan indeks dan kinerja pertanyaan yang efisien sambil menawarkan hit rate dan skor MRR yang kompetitif. Model yang lebih besar tidak selalu menawarkan kualitas pengambilan yang lebih baik. Menggunakan model multibahasa dalam kasus di mana hanya satu bahasa yang dibutuhkan menghasilkan hasil yang buruk, membuat spesialisasi model sangat penting untuk mengoptimalkan kinerja.