Question 1

"Qu'est-ce qu'un pipeline RAG ?"

Accepted Answer

"Retrieval-Augmented Generation : avant d'interroger le LLM, on récupère dans une base les passages pertinents (via embedding et recherche vectorielle ou hybride), puis on les fournit au LLM en contexte. C'est la technique standard pour appliquer un LLM à votre corpus métier sans réentraînement. Bien fait, le RAG transforme un modèle généraliste en assistant expert de votre domaine."

Question 2

"Quelle base vectorielle choisir ?"

Accepted Answer

"Pour démarrer : pgvector si vous avez déjà PostgreSQL : la simplicité opérationnelle est imbattable. Pour des besoins plus poussés : Qdrant (open-source, performant, déployable sur votre propre infrastructure), Weaviate (riche fonctionnellement), Pinecone (entièrement managé dans le cloud). Le choix dépend du volume, de la latence cible, des contraintes opérationnelles et de la criticité."

Question 3

"RAG ou fine-tuning ?"

Accepted Answer

"Dans 90 % des cas, le RAG suffit et coûte beaucoup moins cher. Le fine-tuning n'est vraiment pertinent que pour : (1) imposer au modèle un format de sortie très spécifique ; (2) capturer un style très particulier ; (3) intégrer une connaissance de domaine massive qui ne tiendrait pas dans la fenêtre de contexte. Avant tout fine-tuning, on commence systématiquement par optimiser le RAG."

Question 4

"Comment évaluer la qualité d'un RAG ?"

Accepted Answer

"Trois niveaux : (1) qualité de la recherche (rappel, précision, MRR sur un jeu de tests étiqueté) ; (2) qualité de la génération (fidélité aux sources, complétude, fluidité : évaluation par un autre LLM en juge ou par un humain) ; (3) qualité de bout en bout sur des cas d'usage représentatifs. Sans évaluation, un RAG dérive silencieusement en production."

.Architecture RAG et bases vectorielles

Anatomie d'un pipeline RAG

Où se joue la qualité

Nos technologies

L'équipe DINNO derrière ce service

Questions fréquentes

À lire aussi