BYOK LLM Gateway — qu'est-ce que c'est et pourquoi c'est important

BYOK signifie Bring Your Own Keys. Une BYOK LLM gateway, c'est une couche de routing à laquelle tu donnes les clés API providers que tu possèdes déjà — ta clé OpenAI, ta clé Anthropic, ta clé Google — et qui appelle ces providers pour ton compte. L'inference elle-même est facturée par les providers directement sur ton compte, à leur tarif wholesale. La gateway te facture un abonnement fixe pour le routing, l'observabilité et la couche de sécurité au-dessus.

Ça ressemble à un détail d'archi. Ça n'en est pas un. C'est le plus gros shift en cours dans l'infra LLM, parce que ça réaligne les incitations entre toi et la couche intermédiaire.

BYOK vs reseller — la différence concrète

La plupart des LLM gateways dont tu entends parler en 2026 appartiennent à une de ces deux catégories, même si le marketing brouille la ligne.

Une reseller gateway détient ses propres comptes chez OpenAI, Anthropic, Google et consorts. Tu alimentes un solde chez la gateway, et à chaque requête, elle débite ton solde à son propre tarif. Ce tarif est posé au-dessus du tarif wholesale provider — typiquement une marge à un chiffre sur chaque token. Pas d'abonnement, du pay-as-you-go pur. OpenRouter est l'exemple canonique.

Une BYOK gateway ne détient pas de comptes chez les providers upstream. C'est toi. Tu lui donnes tes clés API (chiffrées at rest), et la gateway route tes requêtes via tes clés. L'inference apparaît sur ta facture OpenAI/Anthropic/Google, au prix que tu as déjà négocié. La gateway gagne de l'argent avec un abonnement fixe mensuel, pas sur un pourcentage de tes tokens.

Mécaniquement les deux produits te permettent d'envoyer une requête et de recevoir une réponse. Financièrement ce sont des animaux opposés.

Reseller gatewayBYOK gateway
Qui détient les comptes providersLa gatewayToi
Qui apparaît sur la facture providerLa gatewayToi
Modèle de prixMarge par token (~5%)Abonnement fixe
Ton coût quand tu scalesLinéaire avec l'usagePlat (jusqu'à un tier)
Incitations de la gatewayPlus de tokens = plus de CAPlus de tokens = même CA
Qui absorbe les changements de prix providerLa gateway (bien)Toi (transparent)
Qui bénéficie de ton tarif entreprise négociéLa gatewayToi

Cette dernière ligne, les équipes entreprise la remarquent en premier. Si ta boîte a un engagement de dépense avec Anthropic qui te donne 15% sur la grille, un reseller ne peut pas utiliser ce prix — il route via son propre compte à son propre tarif négocié. Une BYOK gateway route via le tien et préserve la remise.

Pourquoi l'alignement des incitations compte

Voilà la vérité dérangeante sur les reseller gateways : elles gagnent de l'argent quand tu dépenses plus. Donc chaque fonctionnalité qui réduit ta dépense — routing vers modèles moins chers, caching agressif, budget caps, règles d'auto-downgrade — est une fonctionnalité qui bouffe leur propre CA.

Certains produits reseller shippent quand même ces features parce qu'ils sont de bons citoyens et qu'ils savent que les acheteurs les veulent. Mais il y a une gravité qui tire dans l'autre sens. Quand une équipe ingé chez un reseller doit choisir entre "développer la feature A qui fait économiser 10% au client" et "développer la feature B qui nous donne 10% de throughput en plus", A gagne la moitié du temps, pas tout le temps.

Une BYOK gateway a la gravité inverse. Chaque dollar d'inference qu'elle t'aide à économiser est un dollar de valeur qu'elle peut pointer au renouvellement. Cost controls, smart routing, prompt caching, burn-rate alerts — c'est le produit, pas des features en tension avec le produit. C'est pour ça que les BYOK gateways tendent à les shipper plus vite et plus fort.

Ce n'est pas un argument moral. C'est un argument structurel. Deux ans à regarder la vague du managed-LLM SaaS ont rendu ça clair : les produits qui facturent un pourcentage d'inference shippent systématiquement plus lentement les features de réduction de coût que les clients demandent. Pas parce que les gens qui les construisent sont mauvais. Parce qu'ils sont rationnels, et qu'ils shippent les features qui font du CA.

Quand BYOK est le bon choix

BYOK n'est pas universellement meilleur. Il y a de vrais trade-offs.

BYOK gagne quand :

Reseller gagne quand :

L'exception honnête : si ta dépense d'inference est quasi-nulle, un abonnement à 0 € (reseller à petite marge absolue) reste mécaniquement moins cher qu'un abonnement BYOK à 15 €. Le plan Free HiWay (2 500 req/mois) couvre ce cas sans te forcer à sortir du BYOK. Au-delà de cet edge, BYOK + smart routing gagne peu importe le volume — les économies sur l'inference écrasent l'abonnement en quelques heures d'usage réel.

Quelles gateways proposent BYOK en 2026

D'après la doc publique de chaque produit au 2026-04-22, le paysage BYOK ressemble à ça :

Le pattern : les gateways construites après 2024 sont majoritairement BYOK. Celles qui ont été construites quand les LLMs étaient encore une nouveauté — quand "te donner l'accès" était le produit — sont majoritairement reseller. Le marché bouge dans la direction BYOK, et le modèle reseller est de plus en plus défendu comme "pratique pour prototyper" plutôt que "la bonne manière de faire tourner la prod".

BYOK vs reseller — côte à côte

FeatureHiWay2LLMReseller gateways
Tu détiens les comptes providers
Prix fixe, 0% de marge sur l'inference
Les marges reseller s'empilent sur chaque token
Ton tarif entreprise est préservé
Incitations à t'aider à dépenser moins
Le CA reseller grandit avec ta dépense
Les baisses de prix provider te parviennent immédiatement
Les resellers peuvent garder le delta
Time to first call
Reseller gagne sur la vitesse de setup
~5 min
~2 min
Accès aux providers community/niche
Les resellers agrègent souvent des catalogues plus larges
Coût mensuel prévisible

native · partial or plugin · not offered

Ce qu'une bonne BYOK gateway ship vraiment

Un proxy passthrough avec une page de billing n'est pas une gateway. Une BYOK gateway sérieuse doit te donner au minimum cinq choses, parce que l'incitation à les shipper est désormais alignée avec la tienne :

  1. Smart routing entre modèles. Lire la requête en moins d'une milliseconde, scorer sa difficulté, choisir le modèle le moins cher capable d'y répondre. Tous les appels n'ont pas besoin du top tier.
  2. Prompt caching. Anthropic et OpenAI exposent tous les deux des APIs de caching. La gateway devrait les utiliser automatiquement et reporter le hit rate.
  3. Burn-rate alerts. Si un agent commence à dépenser 500€/h à 3h du matin, tu veux le savoir avant le matin, pas à la facture suivante.
  4. Audit log par workspace. Qui a appelé quel modèle, quand, avec quelle clé, pour combien de tokens, à quel coût. Exportable.
  5. Fallback automatique. Quand un provider est down ou rate-limited, route vers le modèle suivant le plus adapté. Configurable par workspace, pas codé en dur.

Si une BYOK gateway ne ship pas ces cinq-là, c'est un proxy fin avec une page marketing, pas de l'infra. Le test est simple : peux-tu nommer cinq décisions que la gateway prend pour toi que tu aurais sinon dû construire toi-même ? Si la réponse est moins de trois, tu payes trop cher pour un wrapper.

HiWay dans ce paysage

HiWay est une BYOK gateway dont le smart routing est le pari central. Les cinq points ci-dessus sont le produit. Tarif plat : Free à 2 500 req/mois, Build à 15 €/mois pour 100K, Scale à 39 €/mois pour 500K, Business à 249 €/mois pour 5M. Aucune marge pourcentage sur l'inference — jamais. Hébergé EU sur OVH, zero prompt logging par défaut, DPA sur tous les plans.

Le positionnement est simple : si tu veux que les incitations de la couche routing soient alignées avec la descente de ta facture — smart routing, 0% de marge, BYOK, hosting UE — HiWay est construit pour ça. Si tu veux juste une clé pour prototyper avec 100+ modèles en deux minutes et que tu te fiches de ces leviers, un modèle reseller est probablement le bon choix. Les deux ne sont pas en concurrence directe ; ils résolvent des problèmes différents.

FAQ

Questions fréquentes

Dans une BYOK gateway bien construite, les clés sont chiffrées at rest avec AES-GCM, la clé maîtresse est tournée indépendamment, et les clés ne sont jamais loggées en clair. Elles sont déchiffrées en mémoire uniquement quand une requête est en vol, puis oubliées. HiWay publie spécifiquement sa posture de gestion des clés et ne persiste pas les prompts à côté des clés, donc même dans un worst-case breach les deux ne sont pas co-localisés.

Conclusion

BYOK n'est pas une feature — c'est une catégorie. Ça sépare acheter de l'intelligence d'opérer de l'intelligence. Ça réaligne les incitations de la couche infra avec les tiennes. Et ça future-proof ta stack face à un marché où les prix tokens continuent de baisser et où la marge au milieu devient de plus en plus difficile à défendre.

Si tu es sur une reseller gateway aujourd'hui, le calcul bascule presque toujours vers BYOK + smart routing — les économies sont indépendantes du volume, pas conditionnées à un seuil de dépense. Si tu démarres, BYOK vaut quand même la peine d'être compris dès maintenant, pour savoir sur quoi tu construis.

Essayer HiWay — BYOK, prix fixe, 0% de marge

2 500 requêtes/mois gratuites, hébergé EU, sans CB