Cómo recortamos nuestros costes LLM un 85 %
(Sin tocar un solo prompt)
Un health check enviaba un ping a Claude Opus cada 30 minutos. 45 $ de gasto inútil al día. Construimos HiWay2LLM para arreglarlo. Aquí va la historia completa.
La semana pasada, nuestros agentes IA quemaron 45 $ en un solo día. No porque hicieran algo complejo, sino porque un health check enviaba "¿estás vivo?" a Claude Opus cada 30 minutos. A 15 $ por millón de tokens, ese pequeño ping nos costaba 40 $/día.
Ahí es cuando decidimos construir HiWay2LLM.
El problema que tienen todos los devs IA
Cuando construyes con LLMs, probablemente eliges el mejor modelo porque quieres outputs fiables. Lógico. Pero el tema es que el 70 % de tus requests no necesitan el mejor modelo.
- "Hola" → ¿De verdad hace falta Opus a 15 $/M tokens? No.
- "¿Qué hora es en París?" → ¿Sonnet a 3 $/M? No.
- "Resume este email" → Haiku a 0,80 $/M lo hace muy bien.
- "Refactoriza este módulo de 500 líneas y deploy" → OK, ahí sí necesitas Sonnet.
Pagas el precio premium por holas. Cada vez. ¿Y lo peor? Ni te enteras hasta que llega la factura.
Las cifras que duelen
| Métrica | Valor |
|---|---|
| Coste diario | 45 $ |
| Coste mensual | 1 350 $ |
| Tokens medios por request | 142 000 (!) |
| Requests routeadas a modelos más baratos | 0 % |
Lo que construimos
HiWay2LLM es un proxy que se coloca entre tu app y tu proveedor LLM. Analiza cada request en menos de un milisegundo y la rutea hacia el modelo óptimo.
# Antes
client = OpenAI(base_url="https://api.anthropic.com/v1")
# Después — una sola línea a cambiar
client = OpenAI(base_url="https://app.hiway2llm.com/v1")
# Ya está. Mismo código. 50 % más barato.
Los resultados
| Métrica | Antes | Después | Delta |
|---|---|---|---|
| Coste diario | 45 $ | 6,75 $ | -85 % |
| Coste mensual | 1 350 $ | 202 $ | -85 % |
| Requests al tier ligero | 0 % | 65 % | — |
| Degradación de calidad | — | Ninguna | — |
| Latencia routing | — | <1 ms | — |
1 148 $ ahorrados al mes. Latencia de routing: 0,4 ms. Calidad: idéntica.
Guardian: el sistema anti-bucle que nos salvó 40 $/día
Tras vivir la pesadilla del health check, construimos Guardian, una capa de protección en tiempo real que pilla los patrones que vacían tu budget en silencio.
- Health Check Loops. ¿La misma request que pega en tu API cada 30 minutos? Guardian toma huella de las requests y bloquea los duplicados. ¿Nuestro incidente de 40 $/día? Liquidado en una hora.
- Context Bloat. ¿El prompt de tu agente pasa de 10K a 142K tokens? Guardian alerta a 50K, hace throttle a 100K, bloquea a 200K. Se acabaron los contexts que se descontrolan.
- Zombie Agents. ¿Un agente automatizado corriendo a las 3 de la mañana sin interacción humana? Guardian detecta la actividad fuera de horario y bloquea.
- Cost Spikes. ¿Gastas 3× tu media horaria? Guardian hace throttle antes de que el daño esté hecho. Recibes una notif, no una factura sorpresa.
Cada regla es toggleable. Tú eliges los umbrales. Somos guardarraíles, no firewall.
Controles de budget avanzados: lo que ningún proveedor ofrece
Tras construir Guardian, nos dimos cuenta de que la protección reactiva no basta. Hace falta control de budget proactivo, la capacidad de definir exactamente cómo debe gastarse tu dinero, antes de gastarlo.
Construimos algo que ningún proveedor LLM ofrece:
- Topes diarios y mensuales, límites duros que bloquean las requests cuando se alcanzan. Ninguna sorpresa.
- Límites por modelo, máx 2 $/día en Opus, ilimitado en Haiku. Tú controlas a dónde va el dinero.
- Reglas fuera de horario, ¿noches y fines de semana? Solo Haiku, máx 0,50 $/hora. Tu env de staging no puede quemar tu budget durante la noche.
- Degradación automática, al 80 % del budget, downgradeamos a modelos más baratos. Al 95 %, solo Haiku. Al 100 %, block. Suave, no brutal.
- Máximo por request, ninguna request puede costar más de 0,50 $. Evita los prompts bomba de 200K tokens.
¿Por qué Anthropic u OpenAI no ofrecen esto? Porque venden tokens, cuanto más gastes, mejor para ellos. Nosotros ganamos dinero cuando tú ahorras. Nuestros incentivos están alineados con los tuyos.
¿Para quién es?
| Target | Budget LLM actual | Lo que ahorras |
|---|---|---|
| Devs solo | 100-500 $/mes | 50-300 $/mes |
| Startups | 1K-10K $/mes | 500-6 000 $/mes |
| Agencias (multi-cliente) | 5K-20K $/mes | Ahorro en todos los clientes |
| Empresa | 50K+ $/mes | Contáctanos |
Cómo empezar
Cambia una línea de código. Apunta tu base_url a HiWay2LLM. Compatible con OpenAI SDK, LangChain, Vercel AI SDK, n8n, curl, todo lo que hable OpenAI.
Suscripción flat desde 12 $/mes. Aporta tus propias claves API. Cero markup en la inferencia. Ahorras claramente más de lo que pagas.
Sin tarjeta bancaria
HiWay2LLM está construido por Mytm-Group, una empresa IA francesa. ¿El nombre? Highway to Hell. AC/DC. Porque ahí es donde se va tu budget LLM sin routing inteligente.
Was this useful?
Comments
Be the first to comment.