L’oeil de l’expert

Le RAG est-il mort ? Non. Il est devenu invisible.

Après les chatbots, le prompt engineering ou encore les modèles open source, c'est aujourd'hui le RAG (Retrieval-Augmented Generation) qui se retrouve au centre des débats.

À intervalles réguliers, l'industrie de l'intelligence artificielle annonce la mort d'une technologie. Après les chatbots, le prompt engineering ou encore les modèles open source, c'est aujourd'hui le RAG (Retrieval-Augmented Generation) qui se retrouve au centre des débats. L'argument paraît simple : puisque les modèles les plus récents peuvent traiter des volumes considérables de texte, pourquoi continuer à rechercher l'information avant de générer une réponse ? Pourquoi ne pas simplement tout donner au modèle ?

La question est séduisante, mais elle repose sur une lecture incomplète du problème. Dans les projets d'IA d'entreprise, le sujet n'a jamais réellement été le RAG lui-même. Le véritable enjeu est l'accès à la connaissance : comment retrouver la bonne information, au bon moment, dans des milliers de documents, tout en garantissant la fiabilité des réponses, la maîtrise des coûts et la traçabilité des décisions ? Le RAG n'est qu'une réponse technique à cette problématique. Et contrairement à ce que certains affirment aujourd'hui, cette problématique n'a pas disparu.


Le sujet a changé de place, le RAG n'a pas disparu

Depuis l'arrivée des modèles capables de traiter des fenêtres de contexte toujours plus importantes, l'attention du marché s'est déplacée vers les agents IA et les capacités de raisonnement avancées. Certains y voient la preuve que le RAG appartient déjà au passé. Pourtant, lorsqu'on regarde les architectures réellement déployées en production, le besoin de rechercher, filtrer et qualifier l'information reste omniprésent.

En réalité, le RAG a simplement cessé d'être une nouveauté. Comme beaucoup de technologies qui fonctionnent, il est devenu une couche d'infrastructure. Les discussions portent désormais sur les agents ou l'automatisation, mais derrière ces systèmes demeure la même question : comment donner au modèle accès à la bonne information au bon moment ? Tant que cette question existera, le RAG conservera sa place.


« Le RAG est mort » : un débat construit sur un malentendu

La formule repose sur deux confusions. La première consiste à confondre le principe avec sa première implémentation. Beaucoup de critiques visent en réalité les architectures simplifiées popularisées en 2023 : une base vectorielle, quelques documents découpés en fragments et une recherche sémantique avant génération. Or le principe du RAG n'a jamais été cela. Le principe consiste à retrouver l'information pertinente avant de produire une réponse.

La seconde confusion est apparue avec les fenêtres de contexte géantes. Puisqu'un modèle peut désormais lire davantage de contenu, de nombreuses entreprises se demandent pourquoi mettre en place un système de recherche. La question est légitime, mais elle suppose que la capacité maximale d'un modèle correspond nécessairement à son mode de fonctionnement optimal. En pratique, ce n'est pas parce qu'un modèle peut tout lire qu'il doit tout lire.


Tout donner au modèle ou utiliser un RAG : le vrai débat

Il faut reconnaître que les sceptiques du RAG ont raison dans certains cas. Lorsqu'une organisation travaille sur un document unique ou un corpus limité, transmettre directement l'ensemble du contenu au modèle est souvent la solution la plus simple. Dans ce contexte, mettre en place une architecture de recherche peut représenter une complexité inutile.

La situation change dès que l'on passe à l'échelle d'une entreprise. Le premier facteur est économique. À chaque question, le modèle doit relire l'ensemble du contexte fourni. Plus ce contexte est volumineux, plus la consommation de tokens augmente. Lorsqu'une même documentation est relue des centaines ou des milliers de fois, les coûts finissent par exploser. Le RAG répond précisément à ce problème en ne transmettant que les informations pertinentes. D'une certaine manière, il agit comme un mécanisme de compression intelligente du contexte.

La deuxième limite concerne les volumes documentaires réels. Les entreprises ne travaillent pas avec quelques dizaines de pages mais avec des milliers de procédures, contrats, référentiels métiers ou documents techniques. Même les modèles les plus avancés ne peuvent pas relire l'ensemble de ce patrimoine documentaire à chaque interaction. L'enjeu n'est donc pas de tout lire, mais de savoir quoi lire.

Enfin, certaines organisations ont besoin de comprendre précisément sur quoi repose une réponse. Dans les secteurs réglementés ou fortement documentés, une réponse correcte ne suffit pas : il faut être capable de démontrer les sources utilisées. Cette exigence de traçabilité est l'une des raisons pour lesquelles le RAG reste aussi largement utilisé en entreprise.


Les cas où le RAG reste indispensable

Contrairement à ce que laisse penser le débat actuel, les situations dans lesquelles le RAG apporte une valeur décisive sont loin d'être marginales. Elles correspondent même à une grande partie des cas d'usage rencontrés dans les projets d'IA d'entreprise.

Dans un projet mené pour un acteur des médias disposant d'une base documentaire importante et continuellement mise à jour, l'objectif était de permettre aux équipes de retrouver rapidement des informations parmi plusieurs milliers de contenus. Réinjecter l'ensemble de cette documentation dans le contexte du modèle à chaque question aurait entraîné des coûts élevés et des temps de réponse peu compatibles avec les usages métiers. Une architecture RAG s'est imposée naturellement pour accéder uniquement aux contenus pertinents au moment opportun.

Dans un autre projet, mené dans un environnement où chaque décision devait être justifiée, l'enjeu n'était pas seulement de produire une réponse fiable mais également de démontrer sur quelles informations elle reposait. Dans ce type de contexte, la traçabilité devient aussi importante que la qualité de la réponse elle-même. Le lien explicite entre la recommandation produite et les documents sources n'est plus un avantage ; c'est une exigence.

Ces projets mettent en lumière un point souvent sous-estimé : le facteur déterminant n'est pas seulement la qualité du modèle, mais la qualité de la recherche elle-même. Beaucoup d'organisations découvrent qu'une recherche purement sémantique ne retrouve pas toujours les noms de produits, les références réglementaires ou les codes internes. À l'inverse, une recherche fondée uniquement sur les mots-clés passe souvent à côté des questions formulées en langage naturel. C'est précisément la raison pour laquelle les architectures les plus robustes reposent aujourd'hui sur des approches hybrides combinant recherche lexicale et recherche sémantique. Nous détaillons ces mécanismes dans notre playbook consacré à la recherche augmentée par l'IA, car dans la plupart des projets, ce n'est pas le modèle qui constitue le principal facteur de succès ou d'échec, mais la capacité à retrouver la bonne information au bon moment.


Le vrai tournant : l'agentic RAG

S'il existe une évolution majeure du RAG, elle ne réside pas dans sa disparition mais dans sa transformation. La récente annonce de Google autour de son framework Agentic RAG intégré à Gemini Enterprise illustre parfaitement cette tendance. Le constat formulé par les équipes de Google est révélateur : les systèmes RAG traditionnels sont efficaces pour retrouver une information donnée, mais montrent rapidement leurs limites lorsque la réponse nécessite plusieurs étapes de recherche ou des informations réparties entre plusieurs sources.

L'exemple présenté par Google est particulièrement parlant. Un système peut identifier le document mentionnant un serveur utilisé dans un projet, sans pour autant aller chercher automatiquement les caractéristiques techniques de ce serveur dans une autre base documentaire. Le problème n'est pas la génération de la réponse ; le problème est la capacité à poursuivre l'investigation lorsqu'une première recherche ne suffit pas. C'est précisément cette limite que rencontrent de nombreuses entreprises lorsqu'elles cherchent à automatiser des tâches complexes.

Pour répondre à ce défi, les architectures agentiques décomposent le travail entre plusieurs agents spécialisés. Certains planifient les étapes de recherche, d'autres reformulent les requêtes, interrogent différentes sources ou vérifient que les informations récupérées sont suffisantes avant de produire une réponse. Si un élément manque, le système peut décider lui-même de lancer une nouvelle recherche plutôt que de combler les vides par des suppositions. Selon Google, cette approche permet d'améliorer significativement la fiabilité des réponses sur des tâches complexes.

Cette évolution confirme une tendance de fond : les acteurs les plus avancés du marché ne cherchent pas à remplacer le RAG par le contexte long. Ils cherchent à construire des systèmes capables d'exploiter la recherche de manière plus intelligente. L'agentic RAG ne remplace donc pas le RAG. Il repose sur lui. Une mauvaise stratégie de recherche restera mauvaise, même orchestrée par les meilleurs agents.


Comment choisir ? On combine, on n'oppose pas

Les débats technologiques fonctionnent souvent par opposition. Contexte long contre RAG, fine-tuning contre RAG, agents contre RAG. Dans la réalité, les projets qui réussissent combinent ces approches plutôt qu'ils ne les opposent.

Lorsque les données évoluent fréquemment, que les volumes documentaires sont importants ou qu'un besoin de traçabilité existe, le RAG reste généralement la meilleure option. Lorsqu'il s'agit d'exploiter ponctuellement un document unique, les contextes longs peuvent suffire. Le fine-tuning répond à d'autres besoins, notamment lorsqu'il faut modifier durablement le comportement du modèle. Quant aux architectures agentiques, elles viennent enrichir l'ensemble lorsque les tâches nécessitent plusieurs étapes de raisonnement.


Conclusion

Le RAG n'est pas mort. Il a simplement quitté le cycle de l'hypervisibilité médiatique pour entrer dans celui de la maturité technologique. Derrière les débats sur les fenêtres de contexte et les agents IA, le besoin fondamental reste inchangé : retrouver rapidement une information fiable, exploitable et vérifiable dans des volumes de connaissances toujours plus importants.

Les entreprises qui réussissent aujourd'hui ne sont pas celles qui opposent les approches, mais celles qui savent les combiner. Et quelle que soit l'architecture retenue, une réalité demeure : la qualité des réponses dépend d'abord de la qualité de l'accès à l'information.


« Le RAG n'est pas mort. Ce qui meurt, c'est l'idée qu'un RAG se résume à coller des documents dans un prompt. Ce qui le remplace n'est pas le contexte long — c'est un RAG qui raisonne. »

Yosr Abdelmoula


Pour télécharger notre playbook sur la recherche hybride augmentée par l'IA.

Ces articles peuvent aussi vous intéresser

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.