12 mai 2026

L’oeil de l’expert

Maîtriser les coûts des systèmes agentiques : au-delà des optimisations de prompts

Voici les 7 piliers que nous utilisons pour concevoir des architectures IA performantes et soutenables économiquement.

Pendant plusieurs années, la maîtrise des coûts IA s’est résumée à quelques tactiques devenues familières : réduire les prompts, mettre du cache, changer de modèle ou limiter la taille du contexte.

Ces optimisations restent utiles. Mais elles ont été pensées pour une génération d’applications relativement simples : des assistants conversationnels stateless, avec un input, un output et un coût relativement prévisible.

Les systèmes agentiques changent complètement l’équation.

Un agent ne se contente plus de répondre.
Il raisonne, planifie, interroge des outils, relance des recherches, reformule, vérifie, corrige et orchestre plusieurs étapes avant de produire une réponse.

Le coût n’est alors plus proportionnel au nombre de requêtes.
Il devient lié au comportement global du système.

C’est précisément là que beaucoup de projets dérivent.

Les coûts explosent rarement au niveau du prototype. Ils apparaissent lorsque les workflows se complexifient, que les volumes augmentent, que plusieurs agents interagissent avec des outils métiers, ou que l’on cherche à maintenir simultanément qualité, latence et fiabilité.

Dans ce contexte, optimiser uniquement les prompts revient à optimiser une requête SQL dans une architecture distribuée mal conçue.

Le vrai sujet devient alors :

Comment concevoir des systèmes agentiques économiquement viables à l’échelle d’une entreprise ?

Chez Aiko, nous voyons émerger une discipline beaucoup plus proche du platform engineering et du FinOps que du simple prompt engineering.

Une discipline où l’on optimise simultanément les flux d’exécution, les stratégies de raisonnement, les échanges machine-to-machine, les arbitrages entre modèles et les workflows métier eux-mêmes.

Voici les 7 piliers que nous utilisons pour concevoir des architectures IA performantes et soutenables économiquement.


1. Agents supervisés et routage intelligent des modèles

L’une des erreurs les plus fréquentes consiste à utiliser le modèle le plus puissant pour l’ensemble du workflow.

En pratique, la majorité des tâches d’un système agentique ne nécessitent pas un modèle haut de gamme.

Sur un pipeline RAG complet par exemple, les modèles légers peuvent prendre en charge toute la phase préparatoire : classification de l’intention, reformulation des requêtes, sélection des sources documentaires, extraction de données ou encore validation de format. Le modèle plus performant n’intervient qu’au moment où la qualité de génération devient réellement critique.

Le modèle plus performant n’intervient qu’au moment où la qualité de génération devient réellement critique : synthèse finale, arbitrage complexe ou réponse utilisateur.

Dans la pratique, cela signifie souvent que :

  • 80 à 90 % des appels tournent sur des modèles économiques ;

  • et qu’un nombre limité d’étapes mobilise les modèles les plus coûteux.

C’est là que se joue une part majeure du coût réel.

Cette logique ne nécessite pas forcément un routage automatisé sophistiqué.

Dans plusieurs projets menés pour des enseignes retail et services, nous avons volontairement séparé les usages : les modèles légers gèrent l’extraction et la classification, tandis que les modèles plus capables sont réservés aux interactions conversationnelles ou aux décisions complexes. L’architecture est pensée dès la conception pour éviter qu’un modèle coûteux soit mobilisé inutilement à chaque étape du workflow.

Le deuxième aspect important est la supervision.

Contrairement aux représentations souvent véhiculées autour des agents totalement autonomes, les architectures réellement déployées en PME et ETI restent largement supervisées.

Cette supervision prend deux formes.


Feedback post-exécution

Le système collecte des corrections utilisateurs, des scores de confiance, des validations métier et différents signaux qualité afin d’améliorer progressivement les comportements observés en production.

Par exemple, sur un projet de classification de demandes entrantes, un endpoint de feedback permet de corriger les classifications en production afin d’améliorer progressivement le système.

Cette approche est relativement légère à mettre en œuvre.


Validation humaine synchrone

Ici, l’humain intervient directement dans la boucle d’exécution.

Sur un projet d’assistant conversationnel retail, des phase gates empêchent par exemple l’agent d’accéder à certains outils tant que les informations nécessaires n’ont pas été collectées.

Concrètement :

  • la recherche produit reste bloquée ;

  • tant que les critères client ne sont pas suffisamment qualifiés.

Ce type d’architecture nécessite une infrastructure de supervision plus avancée, mais apporte davantage de contrôle sur les coûts et les comportements.

Le point important est le suivant :

La valeur des agents en entreprise ne vient pas de leur autonomie totale, mais de leur capacité à structurer et accélérer les décisions humaines.


2. Contrôler le raisonnement agentique

Dans les systèmes agentiques, une part importante du coût ne provient plus uniquement des réponses produites, mais du raisonnement intermédiaire.

Planification.
Réflexion.
Décomposition.
Auto-correction.
Tentatives successives.

Un agent peut générer plusieurs dizaines d’appels avant de produire une seule réponse visible.

Et plus le système est autonome, plus cette dérive devient difficile à anticiper.

La première approche consiste à limiter explicitement la profondeur d’exécution.

Cela inclut par exemple des caps sur le nombre de tours, des limites sur les appels outils, des stratégies d’early exit ou encore des mécanismes de stall detection.

Sur un assistant conversationnel retail, plusieurs garde-fous ont ainsi été mis en place. Le système force la fermeture après plusieurs tours sans progression, limite strictement le nombre de recherches produit et déclenche un arrêt immédiat dès qu’un signal fort est détecté — par exemple lorsqu’un produit est explicitement apprécié ou qu’une demande de rendez-vous apparaît.

L’objectif n’est pas seulement de réduire les coûts.

C’est aussi d’éviter les comportements erratiques liés aux boucles de raisonnement prolongées.

Une deuxième approche consiste à contrôler la complexité en amont plutôt qu’en aval.

Au lieu d’envoyer immédiatement l’ensemble des possibilités à un modèle coûteux, le workflow est découpé en passes successives.

Une première passe légère réduit d’abord l’espace des candidats, puis une seconde passe plus précise travaille uniquement sur ce sous-ensemble. Cette logique permet de contrôler la complexité avant même de mobiliser les modèles les plus coûteux.

Cette logique est particulièrement efficace dans :

  • la recherche documentaire ;

  • la recommandation ;

  • le matching ;

  • ou les workflows de décision.

Elle permet de limiter structurellement la charge cognitive du système.

Sur certains workflows de recherche produit, le LLM n’intervient ainsi qu’en dernier recours, après plusieurs couches de règles déterministes, de filtrage métier et de matching approximatif.

Deux architectures différentes.
Même logique économique.

Un agent qui sait s’arrêter coûte moins cher et est souvent plus fiable.


3. Réduire le bruit machine-to-machine

L’un des sujets les plus sous-estimés dans les architectures agentiques concerne les flux machine-to-machine.

Dans beaucoup de systèmes, le coût ne provient plus principalement des prompts utilisateurs.

Il provient des données techniques échangées entre :

  • outils ;

  • APIs ;

  • logs ;

  • traces ;

  • systèmes documentaires ;

  • ou workflows internes.

Les agents consomment souvent des volumes considérables d’informations inutiles.

Les cas les plus fréquents sont des logs complets, des payloads JSON massifs, des emails bruts, des PDFs entiers ou encore des résultats techniques non filtrés.

Or chaque donnée injectée dans le contexte augmente :

  • le coût ;

  • la latence ;

  • et parfois même le risque d’erreur.

Dans la pratique, une part importante du travail d’ingénierie consiste donc à nettoyer, structurer et compresser les flux avant leur transmission au modèle.

Concrètement, nous avons mis en place plusieurs stratégies complémentaires selon les projets : seules les données modifiées d’un tour à l’autre sont réinjectées dans l’agent, les PDFs sont tronqués aux pages réellement utiles, les emails sont parsés pour ne conserver que les signaux pertinents et les réponses modèles sont contraintes dans des formats JSON stricts afin de réduire les ambiguïtés de parsing.

Cette logique devient aujourd’hui une couche d’infrastructure à part entière.

Des outils émergents comme RTK (Rust Token Killer) illustrent bien cette évolution.

Leur objectif n’est pas d’optimiser les prompts.

Ils interviennent avant même le modèle, directement au niveau des échanges machine-to-machine.

Le principe est simple : compresser les sorties terminales, filtrer les logs, extraire les signaux utiles et supprimer le bruit non informationnel avant transmission au modèle.

Au lieu d’envoyer 500 lignes de logs à un modèle, le système peut par exemple ne transmettre que les erreurs pertinentes, les changements importants ou un résumé structuré.

L’intérêt de RTK dépasse largement l’outil lui-même.

Il révèle une évolution importante de la stack IA.

L’optimisation des coûts se déplace progressivement du prompt vers les couches d’orchestration et de preprocessing contextuel.

Autrement dit :

La performance économique d’un système agentique dépend désormais autant de la qualité des flux entrants que du modèle lui-même.


4. Mémoire et gestion du contexte à plusieurs niveaux

Dans un chatbot classique, le contexte reste relativement passif.

Dans un système agentique, la mémoire devient un composant actif de l’exécution.

Elle influence directement les décisions, les recherches, les appels outils et les stratégies de raisonnement.

Le problème est qu’une mémoire mal conçue devient rapidement extrêmement coûteuse.

Beaucoup de systèmes réinjectent continuellement l’intégralité de l’historique, des reasoning obsolètes, des états inutiles ou des données déjà exploitées.

À mesure que les conversations s’allongent, les coûts dérivent mécaniquement.

Les architectures efficaces introduisent donc plusieurs niveaux de mémoire.

On distingue par exemple une mémoire court terme dédiée à l’exécution immédiate, une mémoire de travail pour la tâche en cours, une mémoire métier persistante et une mémoire conversationnelle condensée.

Le retrieval lui-même devient hiérarchique.

Le système peut d’abord récupérer un résumé, puis approfondir uniquement si nécessaire.

Autre levier important : le semantic caching.

Dans de nombreux workflows, les agents répètent les mêmes raisonnements, les mêmes recherches ou les mêmes validations.

Réutiliser certains résultats intermédiaires permet souvent de réduire fortement les coûts sans dégrader la qualité, notamment sur les workflows répétitifs ou fortement structurés.

Enfin, une attention particulière doit être portée au context pruning.

Supprimer les états morts, les reasoning obsolètes, les outils non pertinents ou les messages redondants est souvent plus efficace que de chercher à optimiser agressivement les prompts eux-mêmes.

Dans les systèmes agentiques :

Le contexte devient un actif économique à part entière.


5. Concevoir des agents économiquement contraints

La plupart des architectures agentiques actuelles sont conçues pour maximiser les capacités.

Pas l’efficience.

Or un agent autonome sans contrainte économique devient rapidement imprévisible.

Dans une architecture mature, chaque agent devrait disposer de contraintes explicites : budget de tokens, budget temps, budget d’appels outils, limites de profondeur et règles de priorisation.

Cette logique change profondément la manière de concevoir les workflows.

L’objectif n’est plus :

  • “faire le maximum” ;

mais :

  • “obtenir un résultat suffisamment fiable au coût minimal acceptable”.

Cela implique plusieurs mécanismes complémentaires. L’agent doit par exemple privilégier une stratégie déterministe ou un matching simple avant de lancer un raisonnement complexe. Il doit également tenir compte du coût implicite de ses outils : certaines actions déclenchent des appels LLM supplémentaires, des enrichissements documentaires ou des traitements particulièrement lourds. Enfin, de nombreux workflows imposent désormais des caps explicites — nombre maximal de recherches, limitation des reformulations ou arrêt automatique après absence de progression — afin de maintenir un comportement prévisible.

Ce type de garde-fous améliore souvent simultanément :

  • les coûts ;

  • la stabilité ;

  • et l’expérience utilisateur.

Dans les systèmes agentiques, l’autonomie sans contrainte produit rarement les meilleures architectures.

Un agent performant n’est pas celui qui fait le plus, mais celui qui atteint le bon résultat avec le minimum de complexité.


6. Observabilité et FinOps appliqués aux systèmes IA

Dans beaucoup d’organisations, le suivi des coûts IA reste limité au volume d’appels API.

Cette vision devient insuffisante dès que l’on introduit :

  • des workflows multi-étapes ;

  • des agents ;

  • des outils ;

  • ou des chaînes d’orchestration.

Le coût réel doit être mesuré au niveau du workflow complet.

Cela implique de tracer les appels modèles, les étapes de raisonnement, les retries, les outils sollicités, les recherches documentaires et les coûts cumulés.

Sans cette visibilité, il devient impossible d’identifier les dérives, d’optimiser les workflows ou de prioriser les arbitrages.

Dans plusieurs projets, nous avons mis en place des dashboards permettant de suivre les coûts en temps réel, tracer les étapes agentiques, ajuster certains paramètres de runtime et maintenir les systèmes dans un budget défini.

Cette approche rapproche progressivement l’IA des pratiques classiques de FinOps et de platform engineering.

Les systèmes IA deviennent des infrastructures pilotées.

Et comme toute infrastructure distribuée, ils nécessitent de la métrique, de l’observabilité et du contrôle runtime.

On ne peut pas optimiser économiquement un système que l’on ne sait pas mesurer.


7. Industrialiser l’optimisation continue

L’une des erreurs les plus fréquentes consiste à considérer l’optimisation des coûts comme un chantier ponctuel.

En réalité, les systèmes agentiques dérivent continuellement.

Les comportements changent.
Les modèles évoluent.
Les workflows se complexifient.
Les usages utilisateurs se transforment.

Un système parfaitement optimisé aujourd’hui peut devenir inefficace quelques semaines plus tard.

Les architectures matures introduisent donc des mécanismes d’optimisation continue.

Cela inclut notamment des tests de régression coût, des benchmarks réguliers, des comparaisons de stratégies d’orchestration, des évaluations qualité / coût / latence ainsi qu’un monitoring comportemental continu.

Le raisonnement agentique lui-même peut dériver dans le temps.

Un changement de modèle, une nouvelle version d’un outil ou une modification de contexte peuvent provoquer davantage de boucles, plus d’appels outils ou des comportements inattendus.

Les workflows IA doivent donc être pilotés comme des systèmes vivants.

Pas comme des applications statiques.

Cette logique marque une rupture importante avec les premières générations de projets IA.

Pendant longtemps, l’industrie a principalement optimisé les modèles.

La prochaine phase consiste à optimiser les systèmes qui les utilisent.


Conclusion

La maîtrise des coûts IA ne peut plus être réduite à quelques optimisations de prompts.

Les systèmes agentiques introduisent une nouvelle catégorie de problématiques : orchestration, supervision, contrôle du raisonnement, optimisation des flux machine-to-machine, gouvernance runtime et arbitrages économiques permanents.

Autrement dit :

Le sujet n’est plus seulement de savoir quel modèle utiliser.

Le sujet devient :

Comment concevoir des systèmes capables de produire le bon niveau d’intelligence au bon coût, au bon moment ?

Les entreprises qui réussiront ne seront pas nécessairement celles disposant des modèles les plus puissants.

Ce seront celles capables de maîtriser l’économie globale de leurs systèmes IA.

Comme le résume l’une de nos consultantes IA, Yosr Abdelmoula :

« Sur plusieurs projets récents, les leviers les plus efficaces ont été le contrôle du raisonnement, la réduction du bruit contextuel et l’observabilité des coûts. Sur un workflow de classification à très grand nombre de catégories, nous avons introduit une première passe légère pour réduire l’espace des candidats avant d’engager le modèle principal : le LLM ne raisonne jamais sur l’ensemble des possibilités. Nous avons également filtré les données en amont afin de ne transmettre au modèle que les signaux réellement utiles. Sur un autre projet d’assistant agentique retail, un dashboard temps réel permet désormais de suivre les coûts et d’ajuster les paramètres de l’agent en production pour rester dans le budget alloué. Ces mécanismes deviennent progressivement des standards de conception pour les systèmes IA en production. »

Parce qu’au final :

Une architecture IA performante mais économiquement incontrôlable reste simplement un prototype coûteux.

Ces articles peuvent aussi vous intéresser

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.