Dans cet article (4)
Les 5 stratégies de Brian Armstrong placent l’architecture des coûts de l’IA au-dessus des plafonds de jetons
Points clés
- Traitez la maîtrise des coûts de l’IA comme un travail d’architecture, et non comme un régime de jetons à l’échelle de l’entreprise.
- Définissez par défaut des modèles moins chers et performants, tout en gardant les modèles premium disponibles pour les tâches plus difficiles.
- Suivez les dépenses d’IA par flux de travail afin que les usages élevés soient liés à des résultats mesurables.
Le PDG de Coinbase défend concrètement des options par défaut moins coûteuses, un routage plus intelligent et la responsabilité, plutôt qu’une expérimentation limitée.
Le PDG de Coinbase défend concrètement des paramètres par défaut moins coûteux, un routage plus intelligent et une responsabilisation, plutôt qu’une expérimentation limitée.
Le moyen le plus rapide de rendre une facture d’IA plus petite est de faire en sorte que tout le monde ait peur de cliquer sur envoyer. C’est aussi, au passage, une excellente façon de transformer votre brillant déploiement interne d’IA en une coûteuse boîte à suggestions. Business Insider a rapporté que Brian Armstrong, PDG de Coinbase, a présenté 5 stratégies pour maintenir les dépenses d’IA à un niveau bas sans limiter l’utilisation des tokens, ce qui est assez rare pour une note de direction sur les coûts de l’IA : elle part de l’adoption plutôt que de l’austérité. La leçon la plus importante n’est pas que Coinbase aurait trouvé un tiroir à bons de réduction pour l’inférence. C’est que le contrôle des coûts de l’IA doit se jouer dans l’architecture, et non dans des restrictions générales qui traitent chaque prompt comme de la contrebande.
Business Insider : la facture doit passer au niveau de l’architecture
Aditi Bharade, de Business Insider, a rapporté qu’Armstrong prévoit de maintenir les dépenses d’IA à un niveau bas chez Coinbase sans limiter l’utilisation des tokens. Cette distinction compte vraiment. Un plafond d’utilisation est un outil brutal, utile pour arrêter les factures qui s’emballent, mais très mauvais pour apprendre à une organisation où l’IA aide réellement. C’est l’équivalent, côté ingénierie, de réduire son budget courses en mettant un cadenas sur le réfrigérateur : techniquement efficace, mais moralement peu utile.
La reprise par AOL de l’article de Business Insider ajoute le contexte opérationnel : Armstrong a dit qu’il ne voulait pas freiner l’utilisation de l’IA, mais rendre son passage à l’échelle plus durable. C’est un modèle mental utile pour les responsables de l’ingénierie, car la plupart des problèmes de coûts liés à l’IA ne viennent pas du fait que les gens utilisent trop les outils. Ils viennent du fait que chaque tâche passe par le même chemin coûteux, comme envoyer une carte postale en jet privé parce que le service courrier a acheté un timbre premium et s’y est attaché émotionnellement.
AOL : les paramètres par défaut sont une politique en sweat à capuche
Selon le rapport de Business Insider repris par AOL, la première stratégie d’Armstrong consistait à choisir de meilleurs LLM par défaut, c’est-à-dire les modèles que les ingénieurs utilisent automatiquement lorsqu’ils soumettent des prompts. Le rapport indique que Coinbase expérimente des LLM chinois comme modèles par défaut, décrits comme nettement moins chers que les modèles des laboratoires américains d’IA de pointe tels qu’Anthropic et OpenAI. Il mentionne aussi, dans ce contexte, des modèles à poids ouverts comme GLM 5.2.
Tout cela ne signifie pas que chaque entreprise devrait se jeter aveuglément sur le modèle le moins cher du menu, car c’est ainsi que l’on obtient des revues de conformité avec une ambiance d’imprimante hantée. Le point est plus subtil et plus utile : les paramètres par défaut orientent silencieusement les comportements. Si la plupart des prompts internes concernent de l’aide au code courante, des résumés, de la rédaction, de la génération de tests ou de la colle entre workflows, un modèle compétent et moins coûteux peut suffire. Gardez les modèles premium disponibles pour les tâches qui en ont besoin, mais n’en faites pas la réponse automatique à chaque question de chaque employé. Un paramètre par défaut n’est pas seulement un choix d’interface. C’est une politique budgétaire en baskets.
Business Insider : le contrôle des coûts a besoin d’un routeur, pas
d’un sermon Henry Chandonnet, de Business Insider, a rapporté qu’Armstrong avait décrit une mesure visant à maintenir les coûts à peu près stables pendant que l’utilisation des tokens augmente. Le même extrait de Business Insider cite Armstrong écrivant que « le facteur limitant sera l’énergie et le calcul, pas de meilleurs modèles ». Cette phrase compte, car elle déplace la conversation du culte du modèle vers la conception des systèmes. Si le calcul est la contrainte, alors le routage, la mise en cache et l’adéquation entre tâche et modèle ne sont pas de simples bonus. Ce sont la plomberie.
La manière dont Armstrong présente publiquement de meilleurs paramètres par défaut, le routage et la mise en cache est en gros la version adulte de la sélection de modèles. Utilisez un modèle plus puissant lorsque la planification exige de la profondeur. Utilisez un modèle moins cher lorsque l’exécution est répétitive. Mettez en cache ce qui se répète, car payer plein tarif pour le même contexte encore une fois, c’est comme acheter un nouveau grille-pain chaque fois que vous voulez du pain grillé. Le mouvement technique consiste à placer une passerelle LLM ou une couche d’orchestration entre les utilisateurs et les modèles, afin que le système puisse choisir selon la tâche, le prix et la réutilisation plutôt que selon les impressions du moment.
AOL : la responsabilisation vaut mieux que les boutons de panique
La couverture de Business Insider reprise par AOL indique que les conseils d’Armstrong incluent aussi l’attente de résultats tangibles de la part des employés qui dépensent beaucoup. C’est la partie dont toute conversation sur le budget de l’IA finit par avoir besoin, de préférence avant que la finance commence à parler en tableurs et que tout le monde fasse semblant de ne pas comprendre. Si une équipe dépense beaucoup, la bonne question n’est pas de savoir si ce sont de vilains gobelins à tokens. C’est de savoir si la dépense correspond à de la production, de l’apprentissage, de l’automatisation ou une livraison plus rapide.
Pour les bâtisseurs, la leçon est pratique. Instrumentez l’utilisation de l’IA par workflow, pas seulement par personne. Suivez quels modèles sont utilisés pour quelles tâches, où les échecs de cache se produisent et où les appels coûteux créent une valeur mesurable. Ensuite, faites du chemin le moins cher et le plus sûr le choix par défaut, tout en conservant des portes de sortie vers des modèles plus puissants. Le prompt le moins cher n’est pas celui que personne n’envoie. C’est celui pour lequel votre architecture arrête de trop payer.
