Integrasi AI ke Aplikasi Web: Pola Chat Berbasis Dokumen (RAG) yang Praktis

Kalau kamu pernah bikin chat AI yang mengambil jawaban dari dokumen, kamu pasti pernah mengalami ini:

pertanyaan terdengar “benar”,
AI menjawab cepat,
tapi jawabannya tidak nyambung dengan konteks dokumen,
atau bahkan mengada-ngada.

Masalahnya biasanya bukan pada LLM-nya. Masalahnya ada di pipeline: bagaimana dokumen diproses, diindeks, diambil kembali (retrieval), lalu digabung dengan prompt.

Di artikel ini, saya akan bahas pola RAG (Retrieval Augmented Generation) yang praktis untuk integrasi AI di aplikasi web, termasuk langkah MVP sampai versi produksi.

RAG itu apa, dan kapan kamu butuh?

RAG adalah pola arsitektur di mana jawaban model LLM “dibantu” oleh dokumen yang relevan.

Contoh use case yang biasanya cocok untuk RAG:

customer support berbasis knowledge base
chatbot internal untuk SOP dan panduan
ringkasan dokumen proyek (proposal, kontrak, spesifikasi)
asisten HR yang menjawab pertanyaan dari job description

RAG paling tepat ketika:

kamu punya dokumen yang ingin dijadikan sumber kebenaran,
jawaban harus relevan dengan konten spesifik,
dan kamu tidak ingin melakukan training model untuk setiap perubahan dokumen.

Kalau data kamu kecil dan pertanyaan sederhana, prompting biasa kadang cukup.

Arsitektur RAG tingkat praktis (end-to-end)

Secara sederhana, pipeline RAG biasanya terdiri dari 5 blok:

Ingestion (ambil sumber dokumen)
Cleaning & chunking (rapikan teks, bagi ke potongan)
Indexing (buat embeddings, simpan ke vector store)
Retrieval (ambil potongan paling relevan untuk query)
Generation (masukkan potongan ke prompt dan hasilkan jawaban)

Gampang diucapkan, tapi bagian yang paling sering gagal ada di ingestion, chunking, dan retrieval.

Ingestion: pilih sumber yang benar dulu

Ingestion bukan cuma “import file”.

Yang perlu kamu tentukan:

sumbernya dari mana? (PDF, Notion, website, Google Drive, CMS)
bagaimana cara update dokumen? (full reindex atau incremental)
bagaimana menangani dokumen duplikat dan versi berbeda?

Kesalahan umum:

dokumen diindeks termasuk noise (header/footer, boilerplate panjang)
satu dokumen versi lama masih ikut terbawa hasil retrieval
sumber dokumen tidak punya akses yang benar (permission)

Langkah praktis:

buat daftar sumber + aturan update,
gunakan whitelist jenis dokumen,
dan simpan metadata dokumen (misalnya source, updatedAt, language, tags).

Chunking: jangan bikin potongan terlalu besar atau terlalu kecil

Chunking adalah proses memotong dokumen menjadi segmen yang bisa diretrieve.

Jika chunk terlalu kecil:

konteks hilang,
retrieval bisa mengambil kalimat yang benar tapi tidak lengkap.

Jika chunk terlalu besar:

model menerima terlalu banyak teks,
relevansi jadi “encer”,
biaya token naik.

Praktik yang sering saya gunakan:

chunk 200-500 kata untuk konten naratif
chunk per bagian untuk dokumen yang punya struktur (judul, heading)
simpan informasi struktur (misalnya nama section) supaya retrieval lebih akurat

Kalau dokumen kamu punya tabel atau daftar, pertimbangkan chunking berbasis heading/tanda tertentu agar jawaban lebih rapi.

Embeddings dan vector store: simpan dengan metadata yang berguna

Setelah chunk dibuat, kamu perlu embeddings dan vector store.

Hal yang sering dilupakan:

metadata itu penting untuk filter (misalnya bahasa, team, tanggal)
kamu perlu strategi untuk update embeddings saat dokumen berubah

Saya biasanya menyimpan metadata minimal:

docId
source
language
sectionTitle
updatedAt

Dengan metadata itu, retrieval bisa lebih presisi (misalnya hanya cari di dokumen id).

Retrieval: ambil konteks yang relevan, bukan sekadar mirip

Retrieval biasanya menghasilkan top-k chunk berdasarkan kemiripan embedding.

Namun, ada 3 tantangan:

kemiripan embedding tidak selalu berarti jawaban benar
beberapa chunk bisa relevan tapi tumpang tindih
kadang chunk yang benar tidak top-1, tapi top-3 atau top-5

Pola yang saya sarankan:

ambil top-k lebih besar dulu (misalnya top-5 atau top-10)
lakukan deduplication (hilangkan duplikat chunk yang overlap)
(opsional) gunakan re-ranking berbasis model kecil atau heuristic

Kalau kamu punya kemampuan, re-ranking sering meningkatkan kualitas secara signifikan.

Generation: susun prompt supaya model jawab pakai konteks

Bagian generation bukan cuma “tempel teks dokumen ke prompt”.

Saya biasanya membuat prompt dengan format seperti:

peran model (assistant)
instruksi “jawab hanya dari konteks”
aturan referensi (kalau tidak ada di konteks, bilang tidak tahu)
format jawaban yang jelas

Contoh struktur prompt (ringkas):

You are a document-based assistant.
Use only the provided context snippets.
If the answer is not supported by the snippets, say you cannot find it.
Return the answer in a short, structured format.
Include 1-2 citations referencing snippet IDs.

Dengan aturan ini, kamu mengurangi hallucination dan meningkatkan faithfulness (jawaban benar-benar dari sumber).

Guardrails: kendalikan risiko sebelum masuk ke user

Guardrails penting terutama untuk aplikasi web yang menghadapi user nyata.

Beberapa guardrails yang saya pakai:

redaction: hapus PII (email, nomor telepon, data sensitif) sebelum indexing atau sebelum generation
rate limit dan abuse prevention (hindari user bikin prompt injection)
larang output yang tidak didukung konteks: “tidak ditemukan di dokumen”
batasi output length untuk menjaga UX

Kalau kamu punya akses dokumen internal, permission filter juga wajib.

Evaluasi kualitas: ukur yang penting, bukan hanya output yang bagus

Evaluasi RAG biasanya terdiri dari dua lapis:

kualitas retrieval
kualitas jawaban akhir (faithfulness + usefulness)

Untuk retrieval, metrik yang sederhana:

hit rate: apakah chunk yang benar masuk di top-k?
retrieval coverage: seberapa sering jawaban bisa ditopang konteks

Untuk jawaban akhir, metrik praktis:

faithfulness: apakah jawaban sesuai konteks?
helpfulness: apakah jawaban menyelesaikan masalah pengguna?

Mulai dari sampling manual:

ambil 20-50 pertanyaan dari user/engineer
label: jawaban benar/salah atau relevan/tidak
cari pola error (chunking, retrieval filter, atau prompt)

Caching dan latensi: bikin chat terasa cepat

RAG bisa terasa lambat karena retrieval dan generation.

Optimasi yang sering paling berdampak:

cache retrieval untuk pertanyaan yang sering muncul
cache hasil generation untuk konteks yang sama (dengan TTL)
batching re-ranking bila ada

Pastikan UX tetap responsif: tampilkan “thinking” dan skeleton message.

MVP vs produksi: rencana implementasi yang realistis

MVP yang saya rekomendasikan biasanya:

1 sumber dokumen yang jelas (misalnya SOP atau FAQ)
1 strategi chunking (heading-based)
1 vector store
retrieval top-k + prompt yang ketat (“jawab hanya dari konteks”)
evaluasi manual dengan sampling

Setelah MVP stabil, baru tingkatkan:

incremental ingestion
re-ranking
monitoring kualitas + feedback loop

Penutup

RAG itu bukan sekadar “chat dengan dokumen”.

Kemenangan datang dari pola end-to-end:

ingestion yang bersih,
chunking yang tepat,
retrieval yang benar,
prompt yang membatasi,
guardrails yang melindungi,
dan evaluasi kualitas yang konsisten.

Kalau kamu mau, saya bisa bantu kamu merancang blueprint RAG untuk kebutuhan aplikasi kamu. Mulai dari ngobrol singkat: Ayo diskusi.