En este artículo (4)
Las 5 estrategias de Brian Armstrong ponen la arquitectura de costos de IA por encima de los límites de tokens
Puntos Clave
- Trata el control de costos de la IA como trabajo de arquitectura, no como una dieta de tokens para toda la empresa.
- Establece modelos capaces más baratos como predeterminados, manteniendo disponibles los modelos premium para tareas más difíciles.
- Haz seguimiento del gasto en IA por flujo de trabajo para que el uso elevado se conecte con resultados medibles.
El CEO de Coinbase está defendiendo de forma práctica opciones predeterminadas más baratas, enrutamiento más inteligente y responsabilidad, en lugar de una experimentación limitada.
El CEO de Coinbase está defendiendo de forma práctica opciones predeterminadas más baratas, un enrutamiento más inteligente y la rendición de cuentas en lugar de la experimentación limitada.
La forma más rápida de hacer que una factura de IA parezca más pequeña es hacer que todos tengan miedo de hacer clic en enviar. También resulta ser una manera estupenda de convertir tu brillante despliegue interno de IA en un costoso buzón de sugerencias. Business Insider informó que el CEO de Coinbase, Brian Armstrong, describió 5 estrategias para mantener bajo el gasto en IA sin limitar el uso de tokens, lo cual es ese raro memorando ejecutivo sobre costos de IA que parte de la adopción en lugar de la austeridad. La lección más clara no es que Coinbase haya encontrado un cajón de cupones para la inferencia. Es que el control de costos de IA pertenece a la arquitectura, no a restricciones generales que tratan cada prompt como contrabando.
Business Insider: la factura debería pasar a
la capa de arquitectura Aditi Bharade, de Business Insider, informó que Armstrong planea mantener bajo el gasto en IA en Coinbase sin limitar el uso de tokens. Esa distinción sí importa. Un límite de uso es una herramienta contundente: sirve para detener facturas descontroladas, pero es terrible para enseñar a una organización dónde ayuda realmente la IA. Es el equivalente de ingeniería a reducir tu presupuesto de supermercado cerrando la nevera con candado: técnicamente efectivo, pero poco útil en espíritu.
La cobertura sindicada de Business Insider en AOL añade el contexto operativo: Armstrong dijo que no quería frenar el uso de IA, sino hacer que el escalado fuera más sostenible. Ese es un modelo mental útil para líderes de ingeniería, porque la mayoría de los problemas de costos de IA no se deben a que la gente use demasiado las herramientas. Se deben a que cada tarea fluye por el mismo camino caro, como enviar una postal en jet privado porque la sala de correo compró un sello prémium y se encariñó demasiado con él.
AOL: los valores predeterminados son política con sudadera
Según el informe sindicado de Business Insider en AOL, la primera de las estrategias de Armstrong fue seleccionar mejores LLM predeterminados, es decir, los modelos que los ingenieros usan por defecto al enviar prompts. El informe dice que Coinbase está experimentando con LLM chinos como opciones predeterminadas, descritos como significativamente más baratos que los modelos de laboratorios estadounidenses de IA de frontera como Anthropic y OpenAI. También menciona modelos de pesos abiertos como GLM 5.2 en ese contexto.
Nada de esto significa que todas las empresas deban perseguir a ciegas el modelo más barato del menú, porque así es como terminas con revisiones de cumplimiento con la vibra de una impresora embrujada. El punto es más sutil y más útil: los valores predeterminados establecen comportamientos en silencio. Si la mayoría de los prompts internos son ayuda rutinaria de programación, resúmenes, redacción, generación de pruebas o pegamento de flujos de trabajo, un modelo capaz y de menor costo puede ser suficiente. Mantén disponibles los modelos prémium para las tareas que los necesiten, pero no los conviertas en la respuesta automática a cada pregunta de cada empleado. Un valor predeterminado no es solo una elección de interfaz. Es política presupuestaria con zapatillas.
Business Insider: el control de costos necesita un enrutador, no
un regaño Henry Chandonnet, de Business Insider, informó que Armstrong describió una medida destinada a mantener los costos más o menos estables mientras crece el uso de tokens. El mismo fragmento de Business Insider cita a Armstrong escribiendo que "el factor limitante será la energía y el cómputo, no mejores modelos". Esa línea importa porque cambia la conversación de la adoración de modelos al diseño de sistemas. Si el cómputo es la restricción, entonces el enrutamiento, el almacenamiento en caché y la asignación de tareas no son extras agradables. Son la fontanería.
El marco público de Armstrong sobre mejores valores predeterminados, enrutamiento y caché es básicamente la versión adulta de la selección de modelos. Usa un modelo más fuerte cuando la planificación necesita profundidad. Usa un modelo más barato cuando la ejecución sea repetitiva. Guarda en caché lo que se repite, porque pagar el precio completo por el mismo contexto otra vez es como comprar una tostadora nueva cada vez que quieres una tostada. El movimiento técnico es poner una pasarela de LLM o una capa de orquestación entre los usuarios y los modelos, para que el sistema pueda elegir según la tarea, el precio y la reutilización, en lugar de según las vibras.
AOL: la responsabilidad supera a los botones de pánico La cobertura sindicada
de Business Insider en AOL dice que los consejos de Armstrong también incluyen esperar resultados tangibles de los empleados que generan mucho gasto. Esa es la parte que toda conversación sobre presupuesto de IA necesita tarde o temprano, preferiblemente antes de que finanzas empiece a hablar en hojas de cálculo y todos finjan no entender. Si un equipo está gastando mucho, la pregunta útil no es si son duendes traviesos de tokens. Es si el gasto se traduce en producción, aprendizaje, automatización o entregas más rápidas.
Para quienes construyen, la conclusión es práctica. Instrumenta el uso de IA por flujo de trabajo, no solo por persona. Registra qué modelos se usan para qué tareas, dónde ocurren los fallos de caché y dónde las llamadas costosas producen valor medible. Luego convierte el camino más barato y seguro en el predeterminado, mientras conservas vías de escape para modelos de mayor capacidad. El prompt más barato no es el que nadie envía. Es aquel por el que tu arquitectura deja de pagar de más.
