.Architecture RAG et bases vectorielles

Cédric Millauriaux
Rédigé par Cédric Millauriaux, Architecte Logiciel
Mis à jour le

Un LLM générique ne connaît pas votre métier. Le RAG (Retrieval-Augmented Generation) est la technique de référence pour lui injecter votre corpus métier sans avoir à le réentraîner. Bien conçue, une architecture RAG transforme un assistant généraliste en expert de votre domaine.



Anatomie d'un pipeline RAG

  1. Ingestion : extraction de contenu (PDF, HTML, Confluence, SharePoint, Google Drive, bases de données), nettoyage, déduplication.
  2. Découpage (chunking) : segmentation en passages exploitables : stratégie sémantique ou découpage fixe, taille des passages, recouvrement.
  3. Embedding : vectorisation via un modèle d'embeddings (OpenAI, Cohere, Mistral, open-source comme BGE ou Nomic).
  4. Indexation : stockage dans une base vectorielle (pgvector, Qdrant, Weaviate, Pinecone). La recherche hybride (vectorielle + lexicale) donne souvent de meilleurs résultats.
  5. Reclassement (reranking) : affinage des résultats via un cross-encoder (Cohere Rerank, Voyage AI, BGE Rerank).
  6. Génération : construction du prompt final intégrant les passages retrouvés, puis appel au LLM.
  7. Évaluation continue : jeux de tests de référence, suivi de la qualité en production.


Architecture RAG

Où se joue la qualité

La qualité d'un RAG dépend essentiellement de la qualité de la recherche de passages, et non du modèle de génération. Un Claude 4.7 sur des passages mal retrouvés produira une mauvaise réponse, un modèle plus modeste alimenté avec les bons passages produira une bonne réponse.


Les leviers les plus déterminants : qualité de l'ingestion, granularité du découpage, qualité des embeddings, présence d'un reranker, recherche hybride (vectorielle + BM25). On itère sur ces leviers en s'appuyant sur un jeu de tests de référence.



Nos technologies

  • Bases vectorielles : pgvector, Qdrant, Weaviate, Pinecone, Milvus, Elastic.
  • Embeddings : OpenAI text-embedding-3, Cohere embed-v3, Mistral, open-source (BGE, Nomic, jina).
  • Rerankers : Cohere Rerank, Voyage AI, BGE Rerank.
  • Orchestration : LangChain, LlamaIndex, Haystack, ou code sur mesure selon la maturité du besoin.
  • Observabilité : Langfuse, LangSmith, Arize, Phoenix.

Cas client confidentiel

Recherche documentaire sur corpus métier

Sur une mission pour un client du secteur réglementé, nous avons conçu et mis en production un RAG sur un corpus de plusieurs milliers de documents techniques. Choix du chunking et du modèle d’embeddings, base vectorielle Qdrant, reranker, évaluation continue sur un jeu de questions de référence. Le taux de réponses correctes a été suivi sprint après sprint pour piloter les itérations.
Un projet RAG à concevoir ? Parlons-en !


L'équipe DINNO derrière ce service

Une équipe permanente à Saint-Herblain, qui suit chaque projet du cadrage à la maintenance.

Aline Deschamps

Aline Deschamps

Directrice Générale, spécialiste Data

Co-fondatrice de DINNO, elle pilote la stratégie de l'agence et accompagne les clients dans la valorisation de leurs données. Elle intervient sur le cadrage des projets, la gouvernance et la dimension métier des solutions, en particulier auprès des acteurs de la santé.

LinkedIn →
Antoine Précigout

Antoine Précigout

Directeur Technique

Directeur technique de DINNO, il pilote l'équipe de développement et garantit la qualité d'ingénierie de bout en bout : architecture, industrialisation, CI/CD, tests automatisés et mise en production. Référent technique sur les projets web et mobiles.

LinkedIn →
Cédric Millauriaux

Cédric Millauriaux

Architecte Logiciel

Architecte logiciel chez DINNO, il intervient sur les audits techniques, la conception d'architecture et l'urbanisation des systèmes d'information. Il accompagne éditeurs et grands comptes dans leurs refontes et leurs choix structurants (cloud, intégration LLM, sécurité).

LinkedIn →

Questions fréquentes

Qu'est-ce qu'un pipeline RAG ?
Retrieval-Augmented Generation : avant d'interroger le LLM, on récupère dans une base les passages pertinents (via embedding et recherche vectorielle ou hybride), puis on les fournit au LLM en contexte. C'est la technique standard pour appliquer un LLM à votre corpus métier sans réentraînement. Bien fait, le RAG transforme un modèle généraliste en assistant expert de votre domaine.
Quelle base vectorielle choisir ?
Pour démarrer : pgvector si vous avez déjà PostgreSQL : la simplicité opérationnelle est imbattable. Pour des besoins plus poussés : Qdrant (open-source, performant, déployable sur votre propre infrastructure), Weaviate (riche fonctionnellement), Pinecone (entièrement managé dans le cloud). Le choix dépend du volume, de la latence cible, des contraintes opérationnelles et de la criticité.
RAG ou fine-tuning ?
Dans 90 % des cas, le RAG suffit et coûte beaucoup moins cher. Le fine-tuning n'est vraiment pertinent que pour : (1) imposer au modèle un format de sortie très spécifique ; (2) capturer un style très particulier ; (3) intégrer une connaissance de domaine massive qui ne tiendrait pas dans la fenêtre de contexte. Avant tout fine-tuning, on commence systématiquement par optimiser le RAG.
Comment évaluer la qualité d'un RAG ?
Trois niveaux : (1) qualité de la recherche (rappel, précision, MRR sur un jeu de tests étiqueté) ; (2) qualité de la génération (fidélité aux sources, complétude, fluidité : évaluation par un autre LLM en juge ou par un humain) ; (3) qualité de bout en bout sur des cas d'usage représentatifs. Sans évaluation, un RAG dérive silencieusement en production.

À lire aussi