Accueil / Glossaire / RAG
What is Retrieval-Augmented Generation (RAG)?
Abbreviation: RAG
Retrieval-Augmented Generation (RAG) est la technique consistant à récupérer un contexte pertinent depuis un magasin de connaissances au moment de la requête et à l’inclure dans le prompt du LLM. Les bases de connaissances d’osFoundry s’auto-indexent pour le RAG et Maestro récupère depuis elles à chaque tour de chat pertinent.
Detail
Le RAG résout deux limitations des LLM : les données d’entraînement obsolètes et la fenêtre de contexte limitée. Au lieu d’essayer de tout faire tenir dans le prompt, vous récupérez uniquement les chunks pertinents pour la requête de l’utilisateur et les transmettez.
Un pipeline RAG comporte généralement des étapes : requête → embed → recherche vectorielle → reranking optionnel → filtrage optionnel → assemblage du contexte → appel au LLM. Chaque étape possède des paramètres (modèle d’embedding, top-k, reranker, seuil) qui affectent la qualité et le coût.
How osFoundry approaches Retrieval-Augmented Generation (RAG)
Le pipeline RAG d’osFoundry est entièrement configurable par chemin de chat dans osStudio. Faites glisser les étapes, choisissez les modèles d’embedding et de reranker, fixez les seuils. Différentes surfaces (code-chat vs customer-success) peuvent avoir différents pipelines.
FAQ
osFoundry prend-il en charge le RAG ?
Oui — les bases de connaissances s’auto-indexent, les pipelines de récupération sont configurables dans osStudio, et Maestro récupère à chaque tour de chat pertinent.
Quelle est la différence entre RAG et fine-tuning ?
Le RAG récupère des faits externes au moment de la requête. Le fine-tuning intègre un nouveau comportement dans les poids du modèle. Ils sont complémentaires — RAG pour les faits, fine-tuning pour le style ou le raisonnement spécialisé.
Puis-je personnaliser le pipeline RAG ?
Oui — par chemin de chat dans osStudio. Différentes étapes, modèles, seuils par cas d’usage.
Related terms
Related features