Comment on a réduit nos coûts LLM de 85 %
(Sans toucher à un seul prompt)
Un health check envoyait un ping à Claude Opus toutes les 30 minutes. 45 $ de gaspillage par jour. On a construit HiWay2LLM pour corriger ça. Voici l'histoire complète.
La semaine dernière, nos agents IA ont cramé 45 $ en une seule journée. Pas parce qu'ils faisaient un truc complexe, mais parce qu'un health check envoyait "tu es vivant ?" à Claude Opus toutes les 30 minutes. À 15 $ par million de tokens, ce petit ping nous coûtait 40 $/jour.
C'est là qu'on a décidé de construire HiWay2LLM.
Le problème que tous les devs IA ont
Quand tu build avec des LLM, tu choisis probablement le meilleur modèle parce que tu veux des sorties fiables. Logique. Mais le truc c'est que 70 % de tes requêtes n'ont pas besoin du meilleur modèle.
- "Bonjour" → Faut vraiment Opus à 15 $/M tokens ? Non.
- "Quelle heure est-il à Paris ?" → Sonnet à 3 $/M ? Non.
- "Résume cet email" → Haiku à 0,80 $/M fait ça très bien.
- "Refactore ce module de 500 lignes et déploie" → OK, là tu as besoin de Sonnet.
Tu payes le prix premium pour des bonjour. À chaque fois. Et le pire ? Tu t'en rends même pas compte avant que la facture arrive.
Les chiffres qui font mal
| Métrique | Valeur |
|---|---|
| Coût journalier | 45 $ |
| Coût mensuel | 1 350 $ |
| Tokens moyens par requête | 142 000 (!) |
| Requêtes routées vers des modèles moins chers | 0 % |
Ce qu'on a construit
HiWay2LLM est un proxy qui se place entre ton app et ton provider LLM. Il analyse chaque requête en moins d'une milliseconde et la route vers le modèle optimal.
# Avant
client = OpenAI(base_url="https://api.anthropic.com/v1")
# Après — une seule ligne à changer
client = OpenAI(base_url="https://app.hiway2llm.com/v1")
# C'est tout. Même code. 50 % moins cher.
Les résultats
| Métrique | Avant | Après | Delta |
|---|---|---|---|
| Coût journalier | 45 $ | 6,75 $ | -85 % |
| Coût mensuel | 1 350 $ | 202 $ | -85 % |
| Requêtes vers le tier léger | 0 % | 65 % | — |
| Dégradation qualité | — | Aucune | — |
| Latence routing | — | <1 ms | — |
1 148 $ économisés par mois. Latence de routing : 0,4 ms. Qualité : identique.
Guardian : le système anti-loop qui nous a sauvé 40 $/jour
Après avoir vécu le cauchemar du health check, on a construit Guardian, une couche de protection temps réel qui attrape les patterns qui vident ton budget en silence.
- Health Check Loops. La même requête qui tape ton API toutes les 30 minutes ? Guardian prend l'empreinte des requêtes et bloque les doublons. Notre incident à 40 $/jour ? Tué dans l'heure.
- Context Bloat. Le prompt de ton agent passe de 10K à 142K tokens ? Guardian alerte à 50K, throttle à 100K, bloque à 200K. Fini les contexts qui partent en vrille.
- Zombie Agents. Un agent automatisé qui tourne à 3 h du mat sans interaction humaine ? Guardian détecte l'activité hors heures et bloque.
- Cost Spikes. Dépense 3× ta moyenne horaire ? Guardian throttle avant que les dégâts soient faits. Tu reçois une notif, pas une facture surprise.
Chaque règle est toggleable. Tu choisis tes seuils. On est des garde-fous, pas un firewall.
Contrôles budgétaires avancés : ce qu'aucun provider n'offre
Après avoir buildé Guardian, on a réalisé que la protection réactive ne suffit pas. Il faut du contrôle budgétaire proactif, la capacité de définir exactement comment ton argent doit être dépensé, avant qu'il soit dépensé.
On a construit un truc qu'aucun provider LLM n'offre :
- Plafonds journaliers et mensuels, limites dures qui bloquent les requêtes quand atteintes. Aucune surprise.
- Limites par modèle, max 2 $/jour sur Opus, illimité sur Haiku. Tu contrôles où part l'argent.
- Règles hors heures, nuits et week-ends ? Haiku uniquement, 0,50 $/heure max. Ton env de staging ne peut pas cramer ton budget pendant la nuit.
- Dégradation automatique, à 80 % du budget, on downgrade vers des modèles moins chers. À 95 %, Haiku only. À 100 %, block. Doux, pas brutal.
- Max par requête, aucune requête ne peut coûter plus de 0,50 $. Empêche les prompts bombes de 200K tokens.
Pourquoi Anthropic ou OpenAI n'offrent pas ça ? Parce qu'ils vendent des tokens, plus tu dépenses, mieux c'est pour eux. Nous on gagne de l'argent quand tu économises. Nos incentives sont alignés avec les tiens.
Pour qui c'est fait ?
| Cible | Budget LLM actuel | Ce que tu économises |
|---|---|---|
| Devs solo | 100-500 $/mois | 50-300 $/mois |
| Startups | 1K-10K $/mois | 500-6 000 $/mois |
| Agences (multi-client) | 5K-20K $/mois | Économies sur tous les clients |
| Entreprise | 50K+ $/mois | Contactez-nous |
Comment commencer
Change une ligne de code. Pointe ta base_url vers HiWay2LLM. Compatible avec OpenAI SDK, LangChain, Vercel AI SDK, n8n, curl, tout ce qui parle OpenAI.
Abonnement flat à partir de 12 $/mois. Apporte tes propres clés API. Zéro markup sur l'inférence. Tu économises largement plus que ce que tu payes.
Pas de carte bancaire requise
HiWay2LLM est construit par Mytm-Group, une boîte IA française. Le nom ? Highway to Hell. AC/DC. Parce que c'est là que part ton budget LLM sans routing intelligent.
Cet article t'a servi ?
Commentaires
Sois le premier à commenter.