
Saran bagus untuk RAG skala production, dengan 5jt lebih dokumen.
Siapa bilang membangun sistem Retrieval-Augmented Generation (RAG) skala besar itu gampang? Ternyata, kalau udah nyentuh angka jutaan dokumen, ada banyak banget ‘kejutannya’. Abdellatif Abdelfattah, seseorang yang udah ngrasain langsung pahit manisnya pengembangan RAG produksi, berbagi pengalaman berharga selama 8 bulan terakhir. Dia udah ngebenerin sistem buat Usul AI yang memproses 9 juta halaman dan klien perusahaan hukum yang deal sama 4 juta halaman. Buat kamu yang lagi main-main sama RAG, apalagi kalau pengen naik level ke produksi, ini dia rangkuman pembelajaran pentingnya biar nggak salah langkah.
Apa Sih yang Bikin RAG Skala Produksi 'Nendang'?
Dibalik jutaan dokumen disimpan rapi, yang siap diolah sama AI ada tantangan yang nggak main-main. Abdellatif menemukan beberapa kunci penting yang bisa bikin sistem RAG kamu nggak cuma jalan, tapi beneran perform maksimal:
Jangan Cuma Satu Kueri, Bikin 'Pasukan' Kueri! Salah satu trik jitu adalah jangan terpaku pada satu pertanyaan dari pengguna. Abdellatif menyarankan untuk menciptakan beberapa kueri sekaligus, baik yang berbasis semantik (makna) maupun kata kunci. Kalau ada riwayat percakapan, ini bisa banget dimanfaatin buat bikin kueri yang lebih relevan. Tujuannya? Supaya cakupan pencarian jadi lebih luas dan kemungkinan nemu jawaban yang pas makin besar.
Re-ranking: Pahlawan Tanpa Tanda Jasa di Tengah Lautan Pencarian Pernah ngerasa bingung sama hasil pencarian yang segambreng? Nah, re-ranking ini gunanya buat ngurutin hasil pencarian dari yang paling relevan sampai yang kurang relevan. Ternyata, sistem reranking ini powerful banget. Saking kuatnya, bahkan bisa jadi penyelamat kalau setup awal RAG kamu belum sempurna. Rekomendasinya, ubah 50 chunk input jadi 15 output. Ini bikin LLM nggak 'kenyang' informasi tapi tetep fokus sama yang penting.
Strategi Chunking: Potong Dokumen Biar Nggak Bikin Bingung Memotong-motong dokumen (chunking) itu seni tersendiri. Kalau nggak hati-hati, bisa aja satu chunk terpotong di tengah kata atau kalimat, yang ujung-ujungnya bikin LLM bingung. Strategi pemotongan dokumen yang cermat itu krusial. Pastikan setiap chunk punya makna utuh dan logis. Nggak ada lagi potongan kata yang bikin maknanya jadi aneh.
Metadata Bikin Jawaban Makin Berbobot Jangan remehkan kekuatan metadata! Abdellatif menemukan bahwa memasukkan informasi tambahan seperti judul dokumen, penulis, atau tanggal publikasi bersama teks chunk ke dalam LLM bisa meningkatkan kualitas jawaban secara signifikan. Ibaratnya, LLM jadi punya konteks lebih lengkap untuk memberikan jawaban yang lebih mendalam dan akurat.
Router Cerdas: Tahu Kapan Harus Pakai RAG, Kapan Harus Panggil 'Ahli' Lain Nggak semua pertanyaan bisa dijawab optimal sama RAG. Misalnya, kalau ada permintaan ringkasan artikel yang utuh, RAG mungkin nggak jadi solusi terbaik. Di sinilah pentingnya query router. Router ini bertugas mendeteksi pertanyaan semacam itu dan mengarahkannya ke penanganan yang lebih tepat, misalnya lewat panggilan API langsung atau menggunakan LLM secara terpisah. Ini bikin sistem RAG tetep fokus pada tugas utamanya.
Dari Teori ke Praktik: Teknologi di Balik Layar
Dalam pembangunannya, Abdellatif dan timnya nggak main-main soal teknologi. Mereka memanfaatkan berbagai tool canggih, mulai dari database vektor seperti Pinecone dan Turbopuffer, model embedding text-embedding-large-3, hingga LLM canggih seperti GPT-4.1 dan GPT-5.
Hasil Nyata: Open Source untuk Komunitas
Bukan cuma berhenti berbagi ilmu, dari semua pembelajaran ini, Abdellatif merilis proyek open-source bernama agentset-ai/agentset
. Tujuannya jelas: biar semua orang bisa belajar dan mengimplementasikan RAG skala produksi dengan lebih efisien. Jadi, kalau kamu lagi pusing ngurusin RAG jutaan dokumen, ini bisa jadi titik awal yang bagus. Pengalaman langsung dari front terdepan RAG ini terbukti sangat berharga, dan nggak ada salahnya kita ambil hikmahnya untuk pengembangan kita sendiri.