April 20267 min readJohan Bretonneau

BYOK, descodificado
Del LLM gestionado a la infrastructure-as-you-want

BYOK (Bring Your Own Keys) no es una funcionalidad, es un cambio de categoría. Por qué la era del SaaS LLM gestionado se acaba, qué debería hacer realmente una infra BYOK y cómo el alineamiento de incentivos lo cambia todo.

Durante dos años, casi todos los productos LLM que veías seguían la misma plantilla: un SaaS revendedor. Cogían tu dinero, añadían un margen y compraban tokens en Anthropic o OpenAI en tu nombre. El logo de la factura cambiaba. El producto real, los tokens, era idéntico.

Esa era se acaba. El patrón que la sustituye se llama BYOK, y es más importante de lo que la mayoría de los equipos cree, porque no solo cambia de dónde compras tus tokens: invierte por completo los incentivos.

Esto es lo que es, por qué pasa ahora y lo que deberías exigirle a la capa de infra que se pone encima.

Lo que BYOK significa de verdad

BYOK significa Bring Your Own Keys (trae tus propias claves). En concreto:

  • Te registras directamente en Anthropic, OpenAI, Google, Mistral, o quien quieras.
  • Les pagas directamente los tokens que consumes, a precio mayorista, sin markup.
  • Le das tu clave API a una capa middleware que añade las capacidades útiles por encima: routing, caching, controles presupuestarios, observability, guardrails, fallbacks.
  • Ese middleware te factura una suscripción plana por su valor añadido, no un porcentaje de tu gasto en tokens.

Las dos preocupaciones, comprar inteligencia y operar inteligencia, se separan. Le pagas al proveedor de modelo por el modelo. Le pagas a la capa de infra por la fontanería.

Por qué pasa ahora

Dos fuerzas han chocado.

Fuerza 1: los precios se han banalizado. En 2023, tener acceso API a un modelo top-tier era un foso. En 2026, lo tienes en 30 segundos con una tarjeta en Anthropic, OpenAI, Google o xAI. El antiguo pitch de los revendedores, "te damos el acceso", ya no vale nada. Todo el mundo tiene el acceso.

Fuerza 2: el coste del compute se ha vuelto lo bastante grande para que importe. Cuando la factura LLM de una startup era de 200 $/mes, a nadie le preocupaba un markup del 20 %. Cuando es de 20 000 $/mes, el 20 % de markup son 4 000 $/mes tirados al margen de un intermediario. Esa cuenta da la vuelta a la decisión.

Estas dos fuerzas han creado un vacío. BYOK lo llena.

El problema de incentivos del SaaS LLM gestionado

Aquí va la parte incómoda: cuando tu proveedor LLM o tu SaaS LLM gana dinero cuando tú gastas más, no tiene ninguna razón para ayudarte a gastar menos.

Visto desde su lado:

  • ¿Mejor prompt caching? Reduce tu factura. Daña sus ingresos.
  • ¿Rutar las preguntas simples a Haiku? Reduce tu factura. Daña sus ingresos.
  • ¿Avisarte antes de que un agente fuera de control queme 500 $? Reduce tu factura. Daña sus ingresos.

Por eso ningún proveedor de modelo ofrece controles de coste de verdad. Lo más cerca que tiene Anthropic son los "billing alerts", básicamente un email después de que ya hayas gastado el dinero. OpenAI tiene topes mensuales duros, mejor, pero sin presupuestos por endpoint, sin reglas fuera de horario, sin auto-downgrade.

No es que estas empresas sean malas. Es que construir funcionalidades que reduzcan sus propios ingresos no es lo primero que hace una empresa racional. Las funcionalidades que necesitas están en conflicto directo con su modelo de negocio.

Una capa BYOK tiene el alineamiento opuesto. Te factura un flat fee. Cada dólar que te ahorra en tokens es un dólar de valor que puedes señalar al renovar el mes siguiente. Sus incentivos son hacerte gastar menos en lo que ella no vende.

La analogía: infraestructura, no revendedor

El mejor modelo mental para BYOK viene de otras capas de infra que han vivido el mismo cambio:

CategoríaEl antiguo modelo "gestionado"El modelo BYOK / infra
Web servingShared hosting (GoDaddy)Cloudflare / Vercel / Netlify delante de tu origin
CDNHosts full-stack que empaquetaban el CDNFastly / Cloudflare como capa separada
EmailSendGrid revendiendo SMTPPostmark / Resend + tu dominio
SMSTwilio revendiendo SMS de operadorOperadores directos + routing engines (Sinch, MessageBird)
PagosPayPal empaquetando el acquiringStripe acquiring + tu cuenta de comercio

En cada caso, el mercado acabó separando la commodity del valor añadido. El ganador no fue el que revendía la commodity con un markup. Fue el que construía la capa más fina y con más leverage por encima, cobrando una tarifa clara por su inteligencia.

La infra LLM hace exactamente lo mismo, tres años después del arranque.

Qué hace una infra BYOK de verdad

Si estás evaluando una plataforma BYOK, la pregunta no es "¿hacen pasar mis llamadas a Anthropic?". Eso es lo mínimo. La pregunta de verdad es: ¿qué tendría que construir yo mismo si esta capa no existiera?

Una capa BYOK que valga la pena debería darte al menos cinco cosas:

1. Smart routing entre modelos y proveedores. No todas las peticiones necesitan el modelo top-tier. Un buen router lee la petición entrante en menos de 1 ms y envía los saludos a Haiku, el código a Sonnet, el razonamiento duro a Opus. Bonus: fallback a un proveedor secundario cuando tu primario está caído.

2. Controles presupuestarios y anti-abuso. Topes diarios, topes mensuales, límites por modelo, reglas fuera de horario, auto-downgrade en los umbrales. Lo que los proveedores de modelo no te dan, precisamente porque reduciría sus ingresos.

3. Guardrails contra los modos de fallo. Detección de bucles, throttling de context bloat, bloqueo de agentes zombie, alerting sobre picos de coste. Atrapa los patrones que vacían tu presupuesto en silencio.

4. Observability. Coste por endpoint, tasa de cache hit, percentiles de latencia, tasa de retry, coste efectivo por conversación. No puedes arreglar lo que no mides.

5. Gestión de claves. Rotar las claves de forma segura en tu parque, revocar las claves comprometidas, restringir las claves por entorno, auditar el uso de las claves.

Si una plataforma BYOK no tiene todo eso, es un proxy, no una infra.

La objeción: ¿BYOK no es más trabajo?

Pushback clásico: "¿Tengo que gestionar mi propia cuenta de Anthropic ahora? Más overhead."

En la práctica, es menos. He aquí por qué:

  • La facturación se vuelve transparente. Ves el importe exacto que te facturó Anthropic, a tarifa mayorista, sin línea de markup. Sin conciliación "tu plan incluye 5M tokens" con el uso real.
  • Las subidas de cuota son tuyas. Si necesitas rate limits más altos, los pides a Anthropic directamente. Sin bucle "por favor contacta con el soporte de tu SaaS BYOK".
  • Las claves están bajo tu control. Tú las rotas, tú las scopas, tú las revocas. Si la capa de infra se cae, puedes saltártela y llamar a la API directamente hasta que vuelva.
  • Sin lock-in de vendor a nivel de proveedor. Si decides el año que viene pasar de Anthropic a Google, simplemente apuntas tus claves a Google. Tu capa BYOK gestiona el multi-proveedor.

El argumento "no quiero gestionar una cuenta de proveedor" suele ser un proxy de "no quiero pensar en el coste", que es un proxy de "no conozco mi coste real". Una vez que conoces tu coste real, gestionar la cuenta upstream te lleva 15 minutos por trimestre.

La cuenta TCO

Vamos a concretarlo. Imagina un equipo que rota a 5 000 $/mes de gasto LLM vía un SaaS revendedor con 20 % de markup.

Modelo revendedor:

  • Coste en tokens (mayorista): 5 000 $
  • Markup: 1 000 $
  • Total: 6 000 $/mes

Modelo BYOK:

  • Coste en tokens (directo Anthropic): 5 000 $
  • Suscripción infra BYOK: 100-300 $/mes (orden de magnitud)
  • Total: 5 100-5 300 $/mes

Ahorro directo: 700-900 $/mes. Y eso antes de que el smart routing entre en juego, que típicamente ahorra el 30-50 % de la propia factura de tokens.

La capa BYOK se paga 3-10 veces solo eliminando el markup. Los ahorros de routing son la propina.

A quién va dirigido

La infra BYOK es la elección correcta cuando:

  • Tu factura LLM supera los 500 $/mes y te preocupa la trayectoria.
  • Estás corriendo llamadas LLM en producción, no solo experimentos.
  • Tienes más de un caso de uso (chatbot + herramientas internas + jobs batch) donde el routing puede ayudar.
  • Quieres auditabilidad sobre lo que gastas y por qué.

No es la elección correcta si estás corriendo dos scripts de demo y tu gasto total son 20 $/mes. Para eso, llama directamente a Anthropic.

El estado final

Dentro de dos años, apuesto a que toda app LLM seria pasará por una capa de infra BYOK, igual que toda app web seria pasa por Cloudflare o Vercel. El patrón SaaS revendedor seguirá existiendo para principiantes, el equivalente del shared hosting GoDaddy, pero todo lo que escale pasará más allá.

Los proveedores venden tokens. La capa de infra vende la operación de los tokens de forma inteligente. Los mercados se separan.

Tus incentivos por fin se alinean con los de alguien.

Empezar a ahorrar →

Sin tarjeta bancaria


Próximo: una historia de terror sobre un agente IA que quemó 200 $ a las 3 de la mañana, y el sistema anti-bucle que lo habría atrapado.

Share

Was this useful?

Comments

Be the first to comment.