April 20267 min de lectureJohan Bretonneau

BYOK, décrypté
Du LLM managé à l'infrastructure-as-you-want

BYOK (Bring Your Own Keys) n'est pas une feature, c'est un changement de catégorie. Pourquoi l'ère du SaaS LLM managé se termine, ce que devrait vraiment faire une infra BYOK, et comment l'alignement d'incitations change tout.

Pendant deux ans, presque tous les produits LLM que tu voyais suivaient le même template : un SaaS revendeur. Ils prenaient ton argent, ajoutaient une marge, et achetaient des tokens chez Anthropic ou OpenAI en ton nom. Le logo sur la facture changeait. Le produit réel, des tokens, était identique.

Cette ère se termine. Le pattern qui la remplace s'appelle BYOK, et c'est plus important que la plupart des équipes le réalisent, parce que ça ne change pas juste d'où tu achètes tes tokens, ça inverse totalement les incitations.

Voici ce que c'est, pourquoi ça arrive maintenant, et ce que tu devrais exiger de la couche infra qui se pose par-dessus.

Ce que BYOK veut vraiment dire

BYOK veut dire Bring Your Own Keys (apporte tes propres clés). Concrètement :

Tu t'inscris directement chez Anthropic, OpenAI, Google, Mistral, ou qui tu veux.
Tu leur payes directement les tokens que tu consommes, au prix wholesale, sans markup.
Tu donnes ta clé API à une couche middleware qui ajoute les capacités utiles par-dessus : routing, caching, contrôles budgétaires, observability, guardrails, fallbacks.
Ce middleware te facture un abonnement flat pour sa valeur ajoutée, pas un pourcentage de ta dépense en tokens.

Les deux préoccupations, acheter de l'intelligence, et opérer de l'intelligence, sont séparées. Tu payes le provider de modèle pour le modèle. Tu payes la couche infra pour la plomberie.

Pourquoi ça arrive maintenant

Deux forces sont entrées en collision.

Force 1 : les prix se sont banalisés. En 2023, avoir un accès API à un modèle top-tier était un moat. En 2026, tu peux l'avoir en 30 secondes avec une carte chez Anthropic, OpenAI, Google ou xAI. L'ancien pitch des revendeurs, "on te donne l'accès", ne vaut plus rien. Tout le monde a l'accès.

Force 2 : le coût du compute est devenu assez gros pour que ça compte. Quand la facture LLM d'une startup faisait 200 $/mois, personne ne se souciait d'un markup de 20 %. Quand elle fait 20 000 $/mois, 20 % de markup c'est 4 000 $/mois balancés dans la marge d'un intermédiaire. Ce calcul retourne la décision.

Ces deux forces ont créé un vide. BYOK le remplit.

Le problème d'incitations du SaaS LLM managé

Voilà le côté inconfortable : quand ton provider LLM ou ton SaaS LLM gagne de l'argent quand tu dépenses plus, il n'a aucune raison de t'aider à dépenser moins.

Vu de son côté :

Un meilleur prompt caching ? Ça réduit ta facture. Ça nuit à son revenu.
Router les questions simples vers Haiku ? Réduit ta facture. Nuit à son revenu.
T'alerter avant qu'un agent en roue libre crame 500 $ ? Réduit ta facture. Nuit à son revenu.

C'est pour ça qu'aucun provider de modèle n'offre de vrais contrôles de coût. Le plus proche qu'Anthropic ait, c'est les "billing alerts", en gros un email après que tu as déjà dépensé l'argent. OpenAI a des plafonds mensuels durs, mieux, mais pas de budgets par endpoint, pas de règles hors heures, pas d'auto-downgrade.

Ce n'est pas que ces boîtes sont mauvaises. C'est que construire des features qui réduisent leur propre revenu n'est pas ce que fait une boîte rationnelle en premier. Les features dont tu as besoin sont en conflit direct avec leur business model.

Une couche BYOK a l'alignement opposé. Elle te facture un flat fee. Chaque dollar qu'elle t'économise en tokens est un dollar de valeur que tu peux pointer au renouvellement du mois prochain. Ses incitations sont de te faire dépenser moins sur ce qu'elle ne vend pas.

L'analogie : infrastructure, pas revendeur

Le meilleur modèle mental pour BYOK vient d'autres couches d'infra qui ont vécu le même shift :

Catégorie	L'ancien modèle "managé"	Le modèle BYOK / infra
Web serving	Shared hosting (GoDaddy)	Cloudflare / Vercel / Netlify devant ton origin
CDN	Hosts full-stack qui bundlent le CDN	Fastly / Cloudflare en couche séparée
Email	SendGrid qui revendait du SMTP	Postmark / Resend + ton domaine
SMS	Twilio qui revendait le SMS opérateur	Opérateurs directs + routing engines (Sinch, MessageBird)
Paiements	PayPal qui bundlait l'acquiring	Stripe acquiring + ton compte marchand

Dans chacun des cas, le marché a fini par séparer la commodité de la valeur ajoutée. Le gagnant n'a pas été celui qui revendait la commodité avec un markup. C'était celui qui construisait la couche la plus fine et la plus leverage au-dessus, facturant un fee clair pour son intelligence.

L'infra LLM fait exactement la même chose, trois ans après le début.

Ce que fait une vraie infra BYOK

Si tu évalues une plateforme BYOK, la question n'est pas "est-ce qu'ils font passer mes appels à Anthropic". C'est le strict minimum. La vraie question c'est : qu'est-ce que je devrais construire moi-même si cette couche n'existait pas ?

Une couche BYOK qui en vaut la peine devrait te donner au moins cinq choses :

1. Smart routing entre modèles et providers. Toutes les requêtes n'ont pas besoin du modèle top-tier. Un bon router lit la requête entrante en moins d'1 ms et envoie les salutations vers Haiku, le code vers Sonnet, le raisonnement dur vers Opus. Bonus : fallback vers un provider secondaire quand ton primaire est down.

2. Contrôles budgétaires et anti-abus. Plafonds journaliers, plafonds mensuels, limites par modèle, règles hors heures, auto-downgrade aux seuils. Le truc que les providers de modèle ne te donnent pas, précisément parce que ça réduirait leur revenu.

3. Guardrails contre les modes de défaillance. Détection de loops, throttling de context bloat, blocage des zombie agents, alerting sur spikes de coût. Attrape les patterns qui vident ton budget en silence.

4. Observability. Coût par endpoint, taux de cache hit, percentiles de latence, taux de retry, coût effectif par conversation. Tu peux pas fixer ce que tu ne mesures pas.

5. Gestion des clés. Roter les clés en sécurité sur ton parc, révoquer les clés compromises, restreindre les clés par environnement, auditer l'usage des clés.

Si une plateforme BYOK n'a pas tout ça, c'est un proxy, pas une infra.

L'objection : BYOK, c'est pas plus de boulot ?

Pushback classique : "Je dois gérer mon propre compte Anthropic maintenant ? Plus d'overhead."

En pratique, c'est moins. Voici pourquoi :

La facturation devient transparente. Tu vois le montant exact qu'Anthropic t'a facturé, au tarif wholesale, sans ligne de markup. Pas de réconciliation "ton plan inclut 5M tokens" avec l'usage réel.
Les hausses de quota sont les tiennes. Si tu as besoin de rate limits plus hauts, tu les demandes à Anthropic directement. Pas de boucle "merci de contacter le support de ton SaaS BYOK".
Les clés sont sous ton contrôle. Tu les rotes, tu les scopes, tu les révoques. Si la couche infra tombe, tu peux la bypass et appeler l'API directement jusqu'à ce qu'elle revienne.
Pas de lock-in vendor au niveau provider. Si tu décides l'année prochaine de passer d'Anthropic à Google, tu pointes juste tes clés vers Google. Ta couche BYOK gère le multi-provider.

L'argument "je ne veux pas gérer un compte provider" est souvent un proxy pour "je ne veux pas penser au coût", qui est un proxy pour "je ne connais pas mon vrai coût". Une fois que tu connais ton vrai coût, gérer le compte amont te prend 15 minutes par trimestre.

Le calcul TCO

Concrétisons. Imagine une équipe qui tourne à 5 000 $/mois de dépense LLM via un SaaS revendeur avec 20 % de markup.

Modèle revendeur :

Coût en tokens (wholesale) : 5 000 $
Markup : 1 000 $
Total : 6 000 $/mois

Modèle BYOK :

Coût en tokens (direct Anthropic) : 5 000 $
Abonnement infra BYOK : 100-300 $/mois (ordre de grandeur)
Total : 5 100-5 300 $/mois

Économie directe : 700-900 $/mois. Et c'est avant que le smart routing rentre en jeu, qui économise typiquement 30-50 % de la facture tokens elle-même.

La couche BYOK se paye 3-10 fois rien qu'en éliminant le markup. Les économies de routing, c'est en bonus.

À qui c'est destiné

L'infra BYOK est le bon choix quand :

Ta facture LLM dépasse 500 $/mois et tu te soucies de la trajectoire.
Tu fais tourner des appels LLM en production, pas juste des expérimentations.
Tu as plus d'un use case (chatbot + outils internes + jobs batch) où le routing peut aider.
Tu veux de l'auditabilité sur ce que tu dépenses et pourquoi.

Ce n'est pas le bon choix si tu fais tourner deux scripts de démo et que ta dépense totale fait 20 $/mois. Pour ça, appelle Anthropic directement.

L'état final

Dans deux ans, je parie que toute app LLM sérieuse passera par une couche d'infra BYOK, comme toute app web sérieuse passe par Cloudflare ou Vercel. Le pattern SaaS revendeur existera encore pour les débutants, l'équivalent du shared hosting GoDaddy, mais tout ce qui scale passera au-delà.

Les providers vendent des tokens. La couche infra vend l'opération des tokens intelligemment. Les marchés se séparent.

Tes incitations s'alignent enfin avec quelqu'un.

Commencer à économiser →

Pas de carte bancaire requise

Prochain : une horror story sur un agent IA qui a cramé 200 $ à 3 h du mat, et le système anti-loop qui l'aurait attrapé.

LinkedIn X Email

Cet article t'a servi ?

Commentaires

…

Sois le premier à commenter.