FinOps para LLMs: cómo controlamos el coste de IA en RAXAR

Hace dos años, el coste de inferencia de un LLM era una preocupación menor para la mayoría de empresas: un chatbot atendiendo conversaciones genera unos pocos euros al mes. Hoy, con agentes autónomos que ejecutan workflows complejos miles de veces al día, el coste de las llamadas a APIs de IA se ha convertido en una partida significativa que muchas organizaciones no controlan adecuadamente.

En RAXAR operamos un orquestador interno que gestiona más de 40 workflows activos, varios de los cuales son agentes con uso intensivo de LLMs. La factura mensual de inferencia podría perfectamente desbordarse si no aplicáramos disciplina FinOps. Estas son las cinco palancas que tenemos implementadas y que recomendamos a cualquier cliente que opere a escala parecida.

Palanca 1: routing por tier de coste

No toda tarea LLM merece el modelo más caro. Una clasificación binaria de spam vs. legítimo no necesita Claude Sonnet a 3 dólares por millón de tokens output. Le sobra Llama-3.1-8b en Groq a 8 céntimos por millón. La diferencia es de un factor 30x.

Implementamos un router central que clasifica cada request en uno de cinco tiers: local (Ollama on-premise, coste cero), speed (Groq Llama-3.1-8b · clasificación rápida), economy (GPT-4o-mini · backup tier), quality (Claude Sonnet · razonamiento complejo), fallback. Cada workflow declara su tier preferido al iniciar el request, y el router aplica esa preferencia con fallback automático si el primario falla.

El resultado: el 70% de nuestras llamadas LLM se rutean a Ollama (cero coste API) o a Groq (precio marginal). Solo el 15% llega a Claude Sonnet, donde realmente aporta valor diferencial. La factura es una fracción de lo que sería si todos los workflows usaran Claude por defecto.

Palanca 2: caching de prompts repetidos

Muchas tareas LLM en producción son fundamentalmente repetitivas: el mismo system prompt, los mismos few-shot examples, una variación pequeña en el contenido del usuario. Anthropic, OpenAI y Groq ofrecen prompt caching nativo en sus APIs: el primer call paga el coste completo, los siguientes en una ventana de minutos pagan solo el delta variable a un descuento del 90%.

Nuestro router activa prompt caching automáticamente para todos los workflows con system prompt estable. La reducción de coste medible en los workflows con alta repetitividad —email triage, scoring de leads, clasificación de tickets— es del orden del 50-70% del gasto previo. La implementación, en términos de código, son tres líneas adicionales en cada llamada al router.

Palanca 3: batching cuando la latencia lo permite

Las APIs de LLM cobran por token procesado, pero también tienen overhead fijo por request HTTP. Cuando una tarea no es interactiva —procesar una cola de 200 emails de la noche, regenerar embeddings de 1000 documentos—, agruparlos en batches de 50-100 reduce el overhead y permite usar APIs Batch (Anthropic, OpenAI) que ofrecen un descuento del 50% sobre el precio síncrono a cambio de una latencia máxima de 24 horas.

En workflows donde implementamos batching: oracle scraping de RSS feeds, procesamiento offline de PDFs, regeneración periódica de embeddings RAG. El descuento aplicado en estas categorías reduce el coste mensual atribuible a estos sistemas a la mitad. Para workflows interactivos donde la latencia importa —chat ARIA, scoring inbound de leads— mantenemos el modo síncrono.

Palanca 4: observabilidad real, no estimación

No puedes optimizar lo que no mides. Y la mayoría de organizaciones que usan LLMs en producción no miden con precisión cuánto cuesta cada workflow ni cada tenant. Los dashboards de los proveedores agregan a nivel cuenta y no permiten atribuir coste a sistemas o clientes individuales.

Implementamos un cost logger central: cada llamada LLM, sea cual sea el proveedor y el tier, se registra inmediatamente después de la respuesta en una tabla con tenant_id, workflow, modelo, tokens input/output, coste calculado y latencia. Esa tabla alimenta un panel administrativo que muestra coste por tenant, por workflow, por modelo, con tendencias 7d/30d y alertas si un workflow excede su presupuesto definido.

El descubrimiento más útil de esa observabilidad: identificamos en una semana un workflow que costaba 15 veces más que su análogo equivalente, simplemente porque iteraba 5 veces sobre el mismo prompt cuando podía resolver con uno solo. Sin observabilidad atribuible, ese sobrecoste habría pasado inadvertido durante meses.

Palanca 5: presupuestos por cliente y guardrails de coste

El último escudo es el más importante: presupuestos duros por cliente y por workflow, con corte automático cuando se superan. En sistemas multitenant donde cada cliente paga un retainer fijo que incluye uso de IA, un cliente que use el sistema 100x más que el promedio puede consumir el margen de los demás si no hay límite.

Cada tenant en nuestra plataforma tiene un presupuesto LLM mensual definido en su contrato. Cuando el consumo del mes supera el 80% del presupuesto, se envía alerta automática al equipo y al cliente. Cuando alcanza el 100%, los workflows del cliente se rutean al tier más barato (Ollama local) hasta el siguiente ciclo o hasta que el cliente apruebe un upgrade.

Esto evita el famoso "incidente del bucle infinito": un workflow que entra en bucle por error y consume 5.000 dólares de Claude en una noche. Con guardrails de presupuesto, el daño máximo está acotado y previsto en el modelo de negocio.

El framework de decisión: ¿cuándo cada palanca?

No todas las palancas aplican siempre. La pregunta operativa es: ¿qué palanca aporta más en mi situación actual? Una guía rápida basada en lo que vemos:

Si gastas <100€/mes en LLMs: la palanca clave es observabilidad. No optimices todavía; primero mide y entiende dónde se va el dinero. Las otras palancas son overengineering en este nivel.

Si gastas 100-1000€/mes: implementa routing por tier y prompt caching. Estas dos solas suelen reducir entre 40% y 60% del coste mensual sin tocar la calidad output.

Si gastas 1000-10000€/mes: añade batching para tareas no interactivas y presupuestos por workflow/cliente. La gestión deja de ser táctica y pasa a ser un programa formal de FinOps con su persona responsable.

Si gastas >10000€/mes: considera infraestructura dedicada (Bedrock provisioned throughput, vLLM self-hosted con GPUs) y negociación directa con los proveedores de modelos. A este volumen, los descuentos por contrato anual son significativos.

La conclusión práctica

La inferencia LLM es una commodity con precios que bajan año tras año, pero el volumen crece más rápido. Sin disciplina FinOps, una empresa que esté escalando uso de IA puede ver su factura crecer 10x en 12 meses sin que el valor entregado lo justifique. Las cinco palancas descritas no son sofisticación opcional; son la diferencia entre tener un costo predecible y tener un costo descontrolado.

En RAXAR, todas las implementaciones que entregamos a clientes incluyen por defecto routing por tier, observabilidad atribuible y guardrails de presupuesto. La inversión inicial es modesta —unas pocas horas de desarrollo— y el retorno es continuo: cada workflow que añades posteriormente hereda automáticamente la disciplina de coste. Si quieres que evaluemos sin coste cómo está estructurado tu uso actual de IA y dónde están las palancas más rentables, contáctanos.

Palanca 1: routing por tier de coste

Palanca 2: caching de prompts repetidos

Palanca 3: batching cuando la latencia lo permite

Palanca 4: observabilidad real, no estimación

Palanca 5: presupuestos por cliente y guardrails de coste

El framework de decisión: ¿cuándo cada palanca?

No todas las palancas aplican siempre. La pregunta operativa es: ¿qué palanca aporta más en mi situación actual? Una guía rápida basada en lo que vemos:

Si gastas <100€/mes en LLMs: la palanca clave es observabilidad. No optimices todavía; primero mide y entiende dónde se va el dinero. Las otras palancas son overengineering en este nivel.

Si gastas 100-1000€/mes: implementa routing por tier y prompt caching. Estas dos solas suelen reducir entre 40% y 60% del coste mensual sin tocar la calidad output.

FinOps para LLMs: cómo controlamos el coste de IA en RAXAR

Palanca 1: routing por tier de coste

Palanca 2: caching de prompts repetidos

Palanca 3: batching cuando la latencia lo permite

Palanca 4: observabilidad real, no estimación

Palanca 5: presupuestos por cliente y guardrails de coste

El framework de decisión: ¿cuándo cada palanca?

La conclusión práctica

AI Act 2024: guía práctica para PYMEs españolas que usan IA

GDPR vs IA: el laberinto legal de las decisiones automatizadas en RRHH

Automatización vs. contratar: cuándo delegar a una IA y cuándo a una persona

FinOps para LLMs: cómo controlamos el coste de IA en RAXAR

Palanca 1: routing por tier de coste

Palanca 2: caching de prompts repetidos

Palanca 3: batching cuando la latencia lo permite

Palanca 4: observabilidad real, no estimación

Palanca 5: presupuestos por cliente y guardrails de coste

El framework de decisión: ¿cuándo cada palanca?

La conclusión práctica

AI Act 2024: guía práctica para PYMEs españolas que usan IA

GDPR vs IA: el laberinto legal de las decisiones automatizadas en RRHH

Automatización vs. contratar: cuándo delegar a una IA y cuándo a una persona