April 20266 min readJohan Bretonneau

Cómo recortamos nuestros costes LLM un 85 %
(Sin tocar un solo prompt)

Un health check enviaba un ping a Claude Opus cada 30 minutos. 45 $ de gasto inútil al día. Construimos HiWay2LLM para arreglarlo. Aquí va la historia completa.

La semana pasada, nuestros agentes IA quemaron 45 $ en un solo día. No porque hicieran algo complejo, sino porque un health check enviaba "¿estás vivo?" a Claude Opus cada 30 minutos. A 15 $ por millón de tokens, ese pequeño ping nos costaba 40 $/día.

Ahí es cuando decidimos construir HiWay2LLM.

El problema que tienen todos los devs IA

Cuando construyes con LLMs, probablemente eliges el mejor modelo porque quieres outputs fiables. Lógico. Pero el tema es que el 70 % de tus requests no necesitan el mejor modelo.

  • "Hola" → ¿De verdad hace falta Opus a 15 $/M tokens? No.
  • "¿Qué hora es en París?" → ¿Sonnet a 3 $/M? No.
  • "Resume este email" → Haiku a 0,80 $/M lo hace muy bien.
  • "Refactoriza este módulo de 500 líneas y deploy" → OK, ahí sí necesitas Sonnet.

Pagas el precio premium por holas. Cada vez. ¿Y lo peor? Ni te enteras hasta que llega la factura.

Las cifras que duelen

MétricaValor
Coste diario45 $
Coste mensual1 350 $
Tokens medios por request142 000 (!)
Requests routeadas a modelos más baratos0 %

Lo que construimos

HiWay2LLM es un proxy que se coloca entre tu app y tu proveedor LLM. Analiza cada request en menos de un milisegundo y la rutea hacia el modelo óptimo.

# Antes
client = OpenAI(base_url="https://api.anthropic.com/v1")

# Después — una sola línea a cambiar
client = OpenAI(base_url="https://app.hiway2llm.com/v1")

# Ya está. Mismo código. 50 % más barato.

Los resultados

MétricaAntesDespuésDelta
Coste diario45 $6,75 $-85 %
Coste mensual1 350 $202 $-85 %
Requests al tier ligero0 %65 %
Degradación de calidadNinguna
Latencia routing<1 ms

1 148 $ ahorrados al mes. Latencia de routing: 0,4 ms. Calidad: idéntica.

Guardian: el sistema anti-bucle que nos salvó 40 $/día

Tras vivir la pesadilla del health check, construimos Guardian, una capa de protección en tiempo real que pilla los patrones que vacían tu budget en silencio.

  • Health Check Loops. ¿La misma request que pega en tu API cada 30 minutos? Guardian toma huella de las requests y bloquea los duplicados. ¿Nuestro incidente de 40 $/día? Liquidado en una hora.
  • Context Bloat. ¿El prompt de tu agente pasa de 10K a 142K tokens? Guardian alerta a 50K, hace throttle a 100K, bloquea a 200K. Se acabaron los contexts que se descontrolan.
  • Zombie Agents. ¿Un agente automatizado corriendo a las 3 de la mañana sin interacción humana? Guardian detecta la actividad fuera de horario y bloquea.
  • Cost Spikes. ¿Gastas 3× tu media horaria? Guardian hace throttle antes de que el daño esté hecho. Recibes una notif, no una factura sorpresa.

Cada regla es toggleable. Tú eliges los umbrales. Somos guardarraíles, no firewall.

Controles de budget avanzados: lo que ningún proveedor ofrece

Tras construir Guardian, nos dimos cuenta de que la protección reactiva no basta. Hace falta control de budget proactivo, la capacidad de definir exactamente cómo debe gastarse tu dinero, antes de gastarlo.

Construimos algo que ningún proveedor LLM ofrece:

  • Topes diarios y mensuales, límites duros que bloquean las requests cuando se alcanzan. Ninguna sorpresa.
  • Límites por modelo, máx 2 $/día en Opus, ilimitado en Haiku. Tú controlas a dónde va el dinero.
  • Reglas fuera de horario, ¿noches y fines de semana? Solo Haiku, máx 0,50 $/hora. Tu env de staging no puede quemar tu budget durante la noche.
  • Degradación automática, al 80 % del budget, downgradeamos a modelos más baratos. Al 95 %, solo Haiku. Al 100 %, block. Suave, no brutal.
  • Máximo por request, ninguna request puede costar más de 0,50 $. Evita los prompts bomba de 200K tokens.

¿Por qué Anthropic u OpenAI no ofrecen esto? Porque venden tokens, cuanto más gastes, mejor para ellos. Nosotros ganamos dinero cuando tú ahorras. Nuestros incentivos están alineados con los tuyos.

¿Para quién es?

TargetBudget LLM actualLo que ahorras
Devs solo100-500 $/mes50-300 $/mes
Startups1K-10K $/mes500-6 000 $/mes
Agencias (multi-cliente)5K-20K $/mesAhorro en todos los clientes
Empresa50K+ $/mesContáctanos

Cómo empezar

Cambia una línea de código. Apunta tu base_url a HiWay2LLM. Compatible con OpenAI SDK, LangChain, Vercel AI SDK, n8n, curl, todo lo que hable OpenAI.

Suscripción flat desde 12 $/mes. Aporta tus propias claves API. Cero markup en la inferencia. Ahorras claramente más de lo que pagas.

Empezar a ahorrar →

Sin tarjeta bancaria


HiWay2LLM está construido por Mytm-Group, una empresa IA francesa. ¿El nombre? Highway to Hell. AC/DC. Porque ahí es donde se va tu budget LLM sin routing inteligente.

Share

Was this useful?

Comments

Be the first to comment.