BYOK LLM Gateway — qu'est-ce que c'est et pourquoi c'est important
BYOK signifie Bring Your Own Keys. Une BYOK LLM gateway, c'est une couche de routing à laquelle tu donnes les clés API providers que tu possèdes déjà — ta clé OpenAI, ta clé Anthropic, ta clé Google — et qui appelle ces providers pour ton compte. L'inference elle-même est facturée par les providers directement sur ton compte, à leur tarif wholesale. La gateway te facture un abonnement fixe pour le routing, l'observabilité et la couche de sécurité au-dessus.
Ça ressemble à un détail d'archi. Ça n'en est pas un. C'est le plus gros shift en cours dans l'infra LLM, parce que ça réaligne les incitations entre toi et la couche intermédiaire.
BYOK vs reseller — la différence concrète
La plupart des LLM gateways dont tu entends parler en 2026 appartiennent à une de ces deux catégories, même si le marketing brouille la ligne.
Une reseller gateway détient ses propres comptes chez OpenAI, Anthropic, Google et consorts. Tu alimentes un solde chez la gateway, et à chaque requête, elle débite ton solde à son propre tarif. Ce tarif est posé au-dessus du tarif wholesale provider — typiquement une marge à un chiffre sur chaque token. Pas d'abonnement, du pay-as-you-go pur. OpenRouter est l'exemple canonique.
Une BYOK gateway ne détient pas de comptes chez les providers upstream. C'est toi. Tu lui donnes tes clés API (chiffrées at rest), et la gateway route tes requêtes via tes clés. L'inference apparaît sur ta facture OpenAI/Anthropic/Google, au prix que tu as déjà négocié. La gateway gagne de l'argent avec un abonnement fixe mensuel, pas sur un pourcentage de tes tokens.
Mécaniquement les deux produits te permettent d'envoyer une requête et de recevoir une réponse. Financièrement ce sont des animaux opposés.
| Reseller gateway | BYOK gateway | |
|---|---|---|
| Qui détient les comptes providers | La gateway | Toi |
| Qui apparaît sur la facture provider | La gateway | Toi |
| Modèle de prix | Marge par token (~5%) | Abonnement fixe |
| Ton coût quand tu scales | Linéaire avec l'usage | Plat (jusqu'à un tier) |
| Incitations de la gateway | Plus de tokens = plus de CA | Plus de tokens = même CA |
| Qui absorbe les changements de prix provider | La gateway (bien) | Toi (transparent) |
| Qui bénéficie de ton tarif entreprise négocié | La gateway | Toi |
Cette dernière ligne, les équipes entreprise la remarquent en premier. Si ta boîte a un engagement de dépense avec Anthropic qui te donne 15% sur la grille, un reseller ne peut pas utiliser ce prix — il route via son propre compte à son propre tarif négocié. Une BYOK gateway route via le tien et préserve la remise.
Pourquoi l'alignement des incitations compte
Voilà la vérité dérangeante sur les reseller gateways : elles gagnent de l'argent quand tu dépenses plus. Donc chaque fonctionnalité qui réduit ta dépense — routing vers modèles moins chers, caching agressif, budget caps, règles d'auto-downgrade — est une fonctionnalité qui bouffe leur propre CA.
Certains produits reseller shippent quand même ces features parce qu'ils sont de bons citoyens et qu'ils savent que les acheteurs les veulent. Mais il y a une gravité qui tire dans l'autre sens. Quand une équipe ingé chez un reseller doit choisir entre "développer la feature A qui fait économiser 10% au client" et "développer la feature B qui nous donne 10% de throughput en plus", A gagne la moitié du temps, pas tout le temps.
Une BYOK gateway a la gravité inverse. Chaque dollar d'inference qu'elle t'aide à économiser est un dollar de valeur qu'elle peut pointer au renouvellement. Cost controls, smart routing, prompt caching, burn-rate alerts — c'est le produit, pas des features en tension avec le produit. C'est pour ça que les BYOK gateways tendent à les shipper plus vite et plus fort.
Ce n'est pas un argument moral. C'est un argument structurel. Deux ans à regarder la vague du managed-LLM SaaS ont rendu ça clair : les produits qui facturent un pourcentage d'inference shippent systématiquement plus lentement les features de réduction de coût que les clients demandent. Pas parce que les gens qui les construisent sont mauvais. Parce qu'ils sont rationnels, et qu'ils shippent les features qui font du CA.
Quand BYOK est le bon choix
BYOK n'est pas universellement meilleur. Il y a de vrais trade-offs.
BYOK gagne quand :
- Tu as déjà des comptes chez les providers principaux et tu veux les payer directement au wholesale.
- Tu veux que le smart routing rogne la facture d'inference (40-85% typique sur un mix de workload) — une économie indépendante du volume, qui s'empile sur le 0% de marge.
- Tu as négocié des tarifs entreprise que tu veux préserver.
- L'alignement des incitations te tient — tu veux que la couche routing t'aide à dépenser moins, pas plus.
- Le compliance / procurement veut une séparation claire entre le vendor infra et le vendor modèle.
Reseller gagne quand :
- Tu prototypes et tu ne veux pas t'inscrire chez cinq providers différents pour tester cinq modèles différents.
- Tu veux du pay-as-you-go pur à zéro coût fixe et ton volume est trop bas pour rentrer dans le Free d'une BYOK gateway (2 500 req/mois sur HiWay).
- Tu veux accéder à des modèles de niche ou community (Together, Fireworks, DeepInfra, finetunes open-source) que tu ne peux pas atteindre avec des comptes providers directs.
- La vitesse de setup compte plus que tout le reste.
L'exception honnête : si ta dépense d'inference est quasi-nulle, un abonnement à 0 € (reseller à petite marge absolue) reste mécaniquement moins cher qu'un abonnement BYOK à 15 €. Le plan Free HiWay (2 500 req/mois) couvre ce cas sans te forcer à sortir du BYOK. Au-delà de cet edge, BYOK + smart routing gagne peu importe le volume — les économies sur l'inference écrasent l'abonnement en quelques heures d'usage réel.
Quelles gateways proposent BYOK en 2026
D'après la doc publique de chaque produit au 2026-04-22, le paysage BYOK ressemble à ça :
- HiWay2LLM — BYOK-native. Abonnement fixe, 0% de marge sur l'inference, smart routing entre providers, hébergé EU.
- Portkey — BYOK-first. Abonnement fixe. Gros focus observabilité, avec un model router au-dessus.
- LiteLLM — BYOK dans la lib OSS et dans le produit Cloud. Self-host l'OSS avec tes clés, ou Cloud et tu apportes tes clés.
- Vercel AI Gateway — propose un mode BYOK. Sur l'edge Vercel. Plus naturel pour les équipes déjà chez Vercel.
- Cloudflare AI Gateway — BYOK par défaut ; Cloudflare ne revend pas de tokens, il route tes requêtes via tes clés avec caching et observabilité au-dessus.
- Requesty — gateway BYOK-first avec un focus optimisation de coût.
- OpenRouter — PAS BYOK. Modèle reseller avec marge par token. Accepté comme l'alternative standard ; pas de mode BYOK à l'écriture.
- Helicone — principalement un produit d'observabilité. BYOK pour le proxying ; la tarification est sur les requêtes loggées, pas sur une marge d'inference.
Le pattern : les gateways construites après 2024 sont majoritairement BYOK. Celles qui ont été construites quand les LLMs étaient encore une nouveauté — quand "te donner l'accès" était le produit — sont majoritairement reseller. Le marché bouge dans la direction BYOK, et le modèle reseller est de plus en plus défendu comme "pratique pour prototyper" plutôt que "la bonne manière de faire tourner la prod".
BYOK vs reseller — côte à côte
| Feature | HiWay2LLM | Reseller gateways |
|---|---|---|
Tu détiens les comptes providers | ||
Prix fixe, 0% de marge sur l'inference Les marges reseller s'empilent sur chaque token | ||
Ton tarif entreprise est préservé | ||
Incitations à t'aider à dépenser moins Le CA reseller grandit avec ta dépense | ||
Les baisses de prix provider te parviennent immédiatement Les resellers peuvent garder le delta | ||
Time to first call Reseller gagne sur la vitesse de setup | ~5 min | ~2 min |
Accès aux providers community/niche Les resellers agrègent souvent des catalogues plus larges | ||
Coût mensuel prévisible |
native · partial or plugin · not offered
Ce qu'une bonne BYOK gateway ship vraiment
Un proxy passthrough avec une page de billing n'est pas une gateway. Une BYOK gateway sérieuse doit te donner au minimum cinq choses, parce que l'incitation à les shipper est désormais alignée avec la tienne :
- Smart routing entre modèles. Lire la requête en moins d'une milliseconde, scorer sa difficulté, choisir le modèle le moins cher capable d'y répondre. Tous les appels n'ont pas besoin du top tier.
- Prompt caching. Anthropic et OpenAI exposent tous les deux des APIs de caching. La gateway devrait les utiliser automatiquement et reporter le hit rate.
- Burn-rate alerts. Si un agent commence à dépenser 500€/h à 3h du matin, tu veux le savoir avant le matin, pas à la facture suivante.
- Audit log par workspace. Qui a appelé quel modèle, quand, avec quelle clé, pour combien de tokens, à quel coût. Exportable.
- Fallback automatique. Quand un provider est down ou rate-limited, route vers le modèle suivant le plus adapté. Configurable par workspace, pas codé en dur.
Si une BYOK gateway ne ship pas ces cinq-là, c'est un proxy fin avec une page marketing, pas de l'infra. Le test est simple : peux-tu nommer cinq décisions que la gateway prend pour toi que tu aurais sinon dû construire toi-même ? Si la réponse est moins de trois, tu payes trop cher pour un wrapper.
HiWay dans ce paysage
HiWay est une BYOK gateway dont le smart routing est le pari central. Les cinq points ci-dessus sont le produit. Tarif plat : Free à 2 500 req/mois, Build à 15 €/mois pour 100K, Scale à 39 €/mois pour 500K, Business à 249 €/mois pour 5M. Aucune marge pourcentage sur l'inference — jamais. Hébergé EU sur OVH, zero prompt logging par défaut, DPA sur tous les plans.
Le positionnement est simple : si tu veux que les incitations de la couche routing soient alignées avec la descente de ta facture — smart routing, 0% de marge, BYOK, hosting UE — HiWay est construit pour ça. Si tu veux juste une clé pour prototyper avec 100+ modèles en deux minutes et que tu te fiches de ces leviers, un modèle reseller est probablement le bon choix. Les deux ne sont pas en concurrence directe ; ils résolvent des problèmes différents.
FAQ
Questions fréquentes
Conclusion
BYOK n'est pas une feature — c'est une catégorie. Ça sépare acheter de l'intelligence d'opérer de l'intelligence. Ça réaligne les incitations de la couche infra avec les tiennes. Et ça future-proof ta stack face à un marché où les prix tokens continuent de baisser et où la marge au milieu devient de plus en plus difficile à défendre.
Si tu es sur une reseller gateway aujourd'hui, le calcul bascule presque toujours vers BYOK + smart routing — les économies sont indépendantes du volume, pas conditionnées à un seuil de dépense. Si tu démarres, BYOK vaut quand même la peine d'être compris dès maintenant, pour savoir sur quoi tu construis.
2 500 requêtes/mois gratuites, hébergé EU, sans CB