Neste artigo (4)
As 5 estratégias de Brian Armstrong colocam a arquitetura de custos de IA acima dos limites de tokens
Principais conclusões
- Trate o controle de custos de IA como um trabalho de arquitetura, não como uma dieta de tokens para toda a empresa.
- Defina modelos mais baratos e capazes como padrão, mantendo modelos premium disponíveis para tarefas mais difíceis.
- Acompanhe os gastos com IA por fluxo de trabalho para que o alto uso esteja conectado a resultados mensuráveis.
O CEO da Coinbase está defendendo, na prática, padrões mais baratos, roteamento mais inteligente e responsabilidade em vez de experimentação limitada.
O CEO da Coinbase está defendendo, de forma prática, padrões mais baratos, roteamento mais inteligente e responsabilidade em vez de experimentação limitada.
A maneira mais rápida de fazer uma conta de IA parecer menor é deixar todo mundo com medo de clicar em enviar. Isso também acaba sendo uma ótima forma de transformar seu lançamento interno brilhante de IA em uma caixa de sugestões cara. A Business Insider informou que Brian Armstrong, CEO da Coinbase, apresentou 5 estratégias para manter os gastos com IA baixos sem limitar o uso de tokens, o que é aquele raro memorando executivo sobre custos de IA que começa pela adoção, não pela austeridade. A lição mais importante não é que a Coinbase encontrou uma gaveta de cupons para inferência. É que o controle de custos de IA pertence à arquitetura, não a restrições gerais que tratam cada prompt como contrabando.
Business Insider: a conta deve ir para a camada de arquitetura Aditi Bharade, da
Business Insider, informou que Armstrong planeja manter os gastos com IA baixos na Coinbase sem limitar o uso de tokens. Essa distinção faz diferença de verdade. Um limite de uso é uma ferramenta grosseira: boa para impedir contas descontroladas, péssima para ensinar a uma organização onde a IA realmente ajuda. É o equivalente, na engenharia, a reduzir o orçamento do mercado trancando a geladeira com cadeado: tecnicamente eficaz, espiritualmente inútil.
A cobertura sindicalizada da Business Insider no AOL acrescenta o contexto operacional: Armstrong disse que não queria reprimir o uso de IA, mas queria tornar a escala mais sustentável. Esse é um modelo mental útil para líderes de engenharia, porque a maioria dos problemas de custo com IA não é causada por pessoas usando ferramentas demais. Eles são causados por toda tarefa passando pelo mesmo caminho caro, como enviar um cartão-postal em um jato particular porque a sala de correspondência comprou um selo premium e ficou emocionalmente apegada a ele.
AOL: padrões são políticas de moletom
Segundo a reportagem sindicalizada da Business Insider no AOL, a primeira estratégia de Armstrong foi escolher LLMs padrão melhores, ou seja, os modelos que engenheiros usam por padrão ao enviar prompts. A reportagem diz que a Coinbase está experimentando LLMs chineses como padrões, descritos como significativamente mais baratos que os modelos de laboratórios americanos de IA de fronteira, como Anthropic e OpenAI. Ela também menciona modelos de pesos abertos, como o GLM 5.2, nesse contexto.
Nada disso significa que toda empresa deva sair correndo atrás do modelo mais barato do menu, porque é assim que você acaba com análises de conformidade com a energia de uma impressora assombrada. O ponto é mais sutil e mais útil: padrões definem comportamentos silenciosamente. Se a maioria dos prompts internos envolve ajuda rotineira com código, resumos, redação, geração de testes ou cola de fluxo de trabalho, um modelo capaz e de menor custo pode ser suficiente. Mantenha modelos premium disponíveis para tarefas que precisam deles, mas não faça deles a resposta automática para toda pergunta de todo funcionário. Um padrão não é só uma escolha de interface. É política de orçamento usando tênis.
Business Insider: controle de custos precisa de um roteador, não
de uma bronca Henry Chandonnet, da Business Insider, informou que Armstrong descreveu uma medida voltada a manter os custos mais ou menos estáveis enquanto o uso de tokens cresce. O mesmo trecho da Business Insider cita Armstrong dizendo que "o fator limitante será energia e computação, não modelos melhores". Essa frase importa porque muda a conversa de adoração a modelos para design de sistemas. Se a computação é a restrição, então roteamento, cache e correspondência de tarefas não são extras simpáticos. São o encanamento.
A forma pública como Armstrong fala sobre padrões melhores, roteamento e cache é basicamente a versão adulta da seleção de modelos. Use um modelo mais forte quando o planejamento precisar de profundidade. Use um modelo mais barato quando a execução for repetitiva. Coloque em cache o que se repete, porque pagar o preço cheio pelo mesmo contexto de novo é como comprar uma torradeira nova toda vez que você quer uma torrada. O movimento técnico é colocar um gateway de LLM ou uma camada de orquestração entre usuários e modelos para que o sistema possa escolher com base em tarefa, preço e reutilização, em vez de vibes.
AOL: responsabilização vence botões de pânico
A cobertura sindicalizada da Business Insider no AOL diz que as dicas de Armstrong também incluem esperar resultados tangíveis de funcionários com altos gastos. Essa é a parte de que toda conversa sobre orçamento de IA acaba precisando, de preferência antes que o financeiro comece a falar em planilhas e todo mundo finja que não entende. Se uma equipe está gastando muito, a pergunta útil não é se eles são duendes malvados de tokens. É se o gasto se conecta a produção, aprendizado, automação ou entrega mais rápida.
Para quem constrói, a lição é prática. Instrumente o uso de IA por fluxo de trabalho, não apenas por pessoa. Acompanhe quais modelos são usados para quais tarefas, onde acontecem falhas de cache e onde chamadas caras geram valor mensurável. Então, torne o caminho mais barato e mais seguro o padrão, preservando saídas de emergência para modelos de maior capacidade. O prompt mais barato não é aquele que ninguém envia. É aquele pelo qual sua arquitetura deixa de pagar caro demais.
