June 20263 min de lecturaJohan Bretonneau

Un 200 OK no es una buena respuesta: enrutar LLM por calidad, no solo por coste
Un enrutamiento barato que ignora la calidad es un impuesto que pagas más tarde, en malas respuestas

La mayoría de los routers de LLM optimizan el precio y una llamada HTTP correcta. Pero un modelo barato que devuelve una respuesta equivocada con seguridad te cuesta igual, en retrabajo y confianza perdida. Por eso HiWay mide la calidad real de cada modelo y enruta por calidad-precio, no solo por la llamada más barata que no falla.

Todas las historias de reducción de costes de LLM terminan igual: «cambiamos a un modelo más barato y ahorramos un 60 %». Casi nadie escribe la secuela, esa en la que los tickets de soporte suben dos semanas después y el equipo revierte la mitad sin decir nada.

La razón es un número que la mayoría de los equipos nunca miden. No el coste. No la latencia. No la tasa de error. La calidad.

Una llamada correcta no es una buena respuesta

Un modelo más barato devuelve un 200 OK. El pipeline está en verde, la latencia se ve genial, la factura baja. Todos contentos.

Salvo que la respuesta era superficial, o sutilmente incorrecta, o solo cubría la mitad de lo que se pedía. No se lanzó ninguna excepción. No saltó ninguna alerta. Tu producto simplemente empeoró un poco, una respuesta cada vez.

Ese es el impuesto oculto del enrutamiento por coste ingenuo. Optimizas la factura y la vuelves a pagar donde no estás midiendo: retrabajo, escaladas, un usuario que confía un poco menos cada vez.

Lo que ve el enrutamiento ingenuoLo que el usuario recibe de verdad
HTTP 200Una respuesta segura que no da en el clavo
Latencia bajaUna respuesta rápida pero incorrecta
Coste de tokens más bajoUn segundo prompt para arreglar el primero
Dashboard en verdeUn producto silenciosamente peor

Barato no es lo mismo que suficiente, y no en todas partes

Para una gran parte de las tareas, un modelo pequeño es realmente tan bueno como uno de gama alta: clasificación, extracción, resúmenes cortos, formato rutinario. Enrutar eso hacia abajo es dinero gratis, y deberías cogerlo.

Para otras, razonamiento cuidadoso, escritura matizada, uso de herramientas en varios pasos, la diferencia es real. Enruta eso hacia abajo y lo notas en el resultado.

Lo difícil: la línea entre ambas es distinta para cada carga de trabajo, y se mueve cada vez que se actualiza un modelo. Una regla fija de «el modelo barato para todo» es justo como acabas escribiendo la secuela de la reversión.

No suponemos la calidad. La medimos.

HiWay puntúa la calidad real de las salidas de los modelos de tu mix de enrutamiento. Un juez de IA independiente evalúa una muestra de respuestas reales en lo que le importa a un usuario, precisión, completitud y relevancia, para que un modelo que devuelve una respuesta segura pero floja quede por debajo de uno que responde de verdad bien.

Esa señal alimenta el router. Aprende el mejor modelo calidad-precio para cada tipo de tarea en tu workspace, y sigue aprendiendo a medida que cambian tu tráfico y el panorama de modelos.

El resultado es lo que hace que el ahorro sea duradero: capturas el descuento exactamente donde un modelo más barato es de verdad suficiente, y mantienes el modelo fuerte exactamente donde vale su precio. Enrutado por calidad, no solo por coste.

Por qué «independiente» es lo que importa

Un modelo que califica su propio trabajo se halaga a sí mismo. Si la señal de calidad viene del mismo modelo que produjo la respuesta, estás midiendo la confianza, no la corrección. El juicio tiene que venir de fuera del modelo evaluado, sobre las dimensiones que le importan a un usuario, no sobre la única pregunta que hacen la mayoría de los routers: «¿devolvió algo?».

Qué cambia esto para ti

  • Dejas de elegir entre barato y bueno. Obtienes barato donde es seguro y fuerte donde cuenta, decidido por tarea, automáticamente.
  • El ahorro se sostiene, porque no se compra con una regresión de calidad silenciosa que aparece un mes después como abandono.
  • Se adapta. Cuando sale un modelo nuevo o uno existente se degrada, la medición lo detecta antes que tus usuarios.

Recortar tu factura de LLM es fácil. Recortarla sin degradar silenciosamente tu producto es el trabajo de verdad. Esa es la diferencia entre enrutar por coste y enrutar por calidad.

Empezar a ahorrar →

Sin tarjeta de crédito


Lectura relacionada: The Silent Burn: un agente zombie corrió 4 días, Las matemáticas ocultas del pricing de LLM.

Compartir

LinkedInXEmail

Was this useful?

Comments

Be the first to comment.