ABSTRAK
Nama : David Alexander
Program Studi : Computer Science
Judul : Membangun Modul Retrieval untuk Sistem RetrievalAugmented Generation (RAG) untuk Menjawab Pertanyaan
Data Discovery
Pembimbing : Adila Alfa Krisnadhi, S.Kom., M.Sc., Ph.D.
Data discovery adalah masalah di mana analis menghabiskan lebih banyak waktu
untuk mencari data yang relevan daripada menganalisisnya. Untuk mengatasi masalah
ini, solusi seperti Aurum dan Ver telah dibuat untuk menangkap hubungan antara
berbagai sumber data. Namun, solusi ini hanya melihat data dan tidak menangkap
konteks yang mungkin dimiliki manusia saat memproduksi atau mengonsumsi data.
Untuk menyelesaikan masalah ekstraksi dan penyimpanan informasi dari pengguna,
dua masalah perlu diselesaikan: membuat pembuat data mendokumentasikan data
dan menciptakan solusi untuk menyimpan dan mengambil konten yang relevan terkait
dengan pertanyaan pengguna tentang data. Makalah ini berfokus pada bagian kedua
dari masalah tersebut, yaitu menciptakan sistem untuk menyimpan dan mengambil
konten yang relevan tentang data, yang akan dibuat sebagai sistem retrieval-augmented
generation (RAG). Modul retrieval dibuat menggunakan indeks penyimpanan vektor di
mana dokumen diubah menjadi embedding vektor. Ketika sebuah pertanyaan datang,
model yang sama digunakan untuk mengubah pertanyaan menjadi embedding vektor.
Kesamaan antara embedding pertanyaan dan dokumen dibandingkan dan dokumen paling
mirip ter-k dengan pertanyaan dikembalikan. Beberapa model embedding dipilih dan
dievaluasi berdasarkan waktu pembuatan indeks, hit rate, mean reciprocal rank (MRR),
dan waktu pengambilan data. Model yang lebih kecil, berfokus pada pengambilan, dan
berbahasa yang benar seperti bge-small-en-v1.5 direkomendasikan untuk pembuatan
indeks dan kinerja pertanyaan yang efisien sambil menawarkan hit rate dan skor MRR
yang kompetitif. Model yang lebih besar tidak selalu menawarkan kualitas pengambilan
yang lebih baik. Menggunakan model multibahasa dalam kasus di mana hanya satu
bahasa yang dibutuhkan menghasilkan hasil yang buruk, membuat spesialisasi model
sangat penting untuk mengoptimalkan kinerja.
|