April 20267 min readJohan Bretonneau

5 patrones de coste LLM que solo aparecen a escala
Lo que tu factura de 500 $ nunca te dirá

Cuando tu factura LLM pasa de 5K $/mes, aparecen nuevos modos de fallo que no existían a 500 $. Cinco patrones que hemos visto en startups que escalan, y los monitores que los detectan antes de la factura.

A 500 $/mes de gasto LLM, básicamente te da igual. A 5 000 $/mes, empiezas a preocuparte pero puedes absorberlo. A 50 000 $/mes, los patrones de coste que abajo eran ruido se convierten en la línea dominante del presupuesto, y casi siempre son patrones para los que no has diseñado.

Hemos ayudado a una docena de equipos a atravesar esta transición de escala. Los mismos cinco patrones reaparecen sistemáticamente. Ninguno es un bug en el sentido tradicional. Son comportamientos emergentes de sistemas LLM que solo se vuelven visibles cuando el volumen los empuja a la luz.

Patrón 1: La conversación long-tail

A 1 000 conversaciones/día, tu conversación media parece normal, 4-6 turnos, quizás 8K tokens en total. A 100 000 conversaciones/día, descubres la long-tail: unos cuantos cientos de conversaciones al día que de algún modo alcanzan 40, 80, 200 turnos, con context windows de 100K+ tokens.

¿Quién está detrás de esto? A menudo:

  • Power users que mantienen la misma conversación abierta durante semanas y siguen pidiendo cosas
  • Bucles de agentes donde tu automatización llama al chatbot de forma recursiva
  • Cuentas de test/QA dejadas abiertas toda la noche, acumulando contexto
  • Intentos de scraping, alguien que descubre que puede extraer datos de entrenamiento conversando sin fin

Las conversaciones long-tail son un 0,3 % de tu tráfico pero un 8-15 % de tu gasto en tokens. A escala, son decenas de miles de dólares al mes sobre una población que no has identificado.

El monitor: distribución de longitud de conversación (p50, p95, p99, max). Si tu p99 es 10× tu p50, tienes una cola. Pon un tope a las conversaciones en un límite sensato. Avisa a los usuarios antes de que caiga el tope.

Patrón 2: El bucle de abuso "free tier"

Si tienes cualquier feature LLM accesible públicamente, trial gratuito, demo, tier freemium, la gente va a abusar. A baja escala, son unos céntimos. A escala, es el P&L.

Cómo se ve: un único usuario crea 500 cuentas gratuitas en una tarde, escribe un script que ataca tu endpoint free-tier una vez por minuto por cuenta, y extrae una cantidad enorme de compute LLM gratis. Variantes:

  • CAPTCHA esquivado con servicios comerciales
  • Cuentas detrás de proxies residenciales para que no puedas hacer fingerprinting por IP
  • Números de teléfono desde granjas de verificación SMS

Tuvimos un equipo que descubrió que el 23 % de su gasto LLM "free trial" iba a 14 cuentas, todas clusterizadas en un único ring de fraude. Coste mensual: 8 200 $. Por usuarios que nunca pagarían.

El monitor: burn-rate por cuenta, específicamente en los tiers free/trial. Lanza un webhook cuando una sola cuenta supere el gasto mensual de tu usuario de pago medio en un día.

Patrón 3: La deriva silenciosa de versión de prompt

En un producto con 20 ingenieros, los prompts los editan muchas manos. El PR de alguien añade una frase útil al system prompt. Otro añade un logging de timestamp. Alguien prueba un nuevo truco de formato en prod "solo unas horas".

Cada cambio invalida cache hits. Cada cambio añade 50 tokens. Cada cambio es individualmente justificable. Colectivamente, tu prompt medio engorda un 30 % en un trimestre, tu tasa de cache hit cae del 85 % al 45 %, y tu factura crece un 60 % sin ningún cambio en el uso del producto.

El monitor: tamaño del system prompt en el tiempo, y tasa de cache hit en el tiempo. Alerta si alguno deriva más de un 15 % semana sobre semana. A escala, añade un paso de review de cambio de prompt en CI, trata los prompts como código porque son código.

Patrón 4: El noisy neighbor multi-tenant

Si haces correr tráfico LLM para varios clientes sobre claves compartidas, antes o después tendrás un cliente cuyo patrón de uso es 20× el resto. Normalmente no porque sea abusivo, simplemente tiene una forma de workload diferente (documentos más largos, más agentes, throughput más alto).

El problema: su uso puede comerse tus rate limits. Cuando hace spike, tus otros clientes reciben throttle. Su gasto puede consumir tu capacidad de cache, tirando el hit rate para todos. Sus retry loops pueden quemar el presupuesto que destinabas a los demás.

El monitor: burn-rate por tenant, latencia P99 por tenant, parte del gasto total por tenant. A escala, mueve a los tenants grandes a claves dedicadas (la mayoría de proveedores te las dan a petición). Los tenants pequeños se quedan en la infra compartida.

Patrón 5: El tier mismatch silencioso

Alguien, hace seis meses, puso por defecto tu routing a Opus por "razones de calidad". Nadie ha vuelto a evaluarlo. A bajo volumen, eran 40 $/mes de más de lo necesario. A alto volumen, son 14 000 $/mes de más.

O: estás en un tier rate-limit generoso pero caro, cuando podrías haberte movido a un tier más barato con un contrato. O: pagas la tarifa retail cuando el pricing enterprise por volumen ahorraría un 25 %. O: estás en un proveedor cuyo modelo "frontera" es ahora el segundo mejor, y pagas la antigua prima por el antiguo branding.

A escala, la config por defecto nunca es la config correcta. Pero la review se lleva un día de ingeniería que nadie planifica.

El monitor: ninguno. Este es de proceso. Pon un recordatorio trimestral para revisar tu selección de modelos, tu tier, tu contrato. Media jornada por trimestre ahorra fácilmente seis cifras al año a 50K+ mensuales.

Lo que estos patrones tienen en común

Cada patrón de arriba tiene la misma firma: invisible a pequeña escala, dominante a gran escala. No los ves en tu env de dev. No los ves en el primer mes de prod. Los ves en la factura, tres meses después, cuando los números ya se han compuesto.

El fix no es "escribir una mejor app LLM". El fix es observabilidad continua, vigilar la distribución, no solo la media. Cuando tu p99 es 20× tu p50, tus medias te mienten.

El ángulo infraestructura

Aquí es donde una capa middleware se gana su fee a escala. Ninguno de los cinco monitores anteriores es difícil de construir individualmente. Lo difícil es construirlos todos, mantenerlos, y tener las alertas correctas en el momento correcto sobre una flota de productos.

En HiWay lo hemos integrado todo en Guardian y el dashboard de analytics. No porque quisiéramos una lista de features, sino porque hemos chocado con exactamente estos patrones en nuestra propia stack, y luego otra vez en clientes a los que ayudábamos. Una vez que los has visto tres veces, los construyes una vez y los recuperas.

Si tu factura LLM está por debajo de 2K $/mes, no sobre-ingenieres. Trackea el coste diario, pon una alerta de umbral, sigue adelante. Pero si estás entre 5K y 50K, los cinco patrones de arriba son donde se te escapa el dinero. Encuéntralos primero, optimiza después.

Empezar a ahorrar →

Sin tarjeta bancaria


A leer también: Cómo redujimos nuestros costes LLM un 85 % y Lo que el prompt caching cuesta de verdad.

Share

Was this useful?

Comments

Be the first to comment.