In this article (4)
OpenAI a conçu sa propre puce. Voici pourquoi cet pari est plus important qu'il n'y paraît.
Key Takeaways
- Les économies de coûts d'environ 50 % de Jalapeno par rapport aux GPU, citées par le PDG de Broadcom Hock Tan, constituent l'argument commercial central justifiant que OpenAI possède son propre silicium d'inférence plutôt que de louer des puces polyvalentes.
- Les ASIC échangent la flexibilité contre l'efficacité ; Jalapeno est étroitement optimisé pour l'inférence de grands modèles de langage, ce qui lui permet de remporter la bataille des coûts à grande échelle, mais de s'adapter difficilement si les schémas d'inférence évoluent.
- Le partenariat OpenAI-Broadcom-Celestica répartit la conception de la puce, l'implémentation du silicium et les systèmes de production entre trois spécialistes, un modèle qui mérite d'être étudié par quiconque construit une infrastructure d'IA à grande échelle.
Jalapeño, le premier ASIC d'inférence personnalisé d'OpenAI conçu avec Broadcom, sacrifie la flexibilité au profit du coût et du contrôle à l'échelle des LLM.
Jalapeño, le premier ASIC d'inférence personnalisé d'OpenAI développé avec Broadcom, échange la flexibilité contre le coût et le contrôle à l'échelle des LLM.
Les H100 de Nvidia sont à l'infrastructure IA ce que le thème WordPress par défaut est au design web : parfaitement fonctionnels, largement déployés, et signe que personne n'a encore vraiment réfléchi à ses contraintes spécifiques. OpenAI, qui a beaucoup réfléchi à ses contraintes spécifiques, vient d'annoncer qu'elle a un plan différent. Voici Jalapeno, le premier circuit d'inférence personnalisé d'OpenAI, conçu avec Broadcom et optimisé de bout en bout pour l'inférence sur des grands modèles de langage à grande échelle.
Ce qu'est vraiment Jalapeno
Jalapeno est un ASIC, un circuit intégré dédié à une application spécifique, ce qui signifie qu'il n'est délibérément pas un accélérateur polyvalent. Là où un GPU est un couteau suisse capable de gérer l'entraînement, l'inférence, les graphiques et tout ce qu'on lui soumet, un ASIC est une lame unique, très affûtée. Selon l'annonce officielle d'OpenAI, le circuit a été conçu à partir de la compréhension approfondie qu'a OpenAI des fondamentaux des LLM, nourrie par sa feuille de route de modèles, de noyaux, de systèmes de service et de besoins produits. Ce dernier point mérite qu'on s'y arrête : ce circuit est façonné par la même équipe qui décide quels modèles sont construits et comment ils sont servis. La boucle de rétroaction architecturale est extrêmement courte.
D'après les informations de DBTA, des échantillons d'ingénierie de Jalapeno font déjà tourner des charges de travail ML en laboratoire à la fréquence et à la puissance cibles de production, y compris GPT-5.3-Codex-Spark — ce qui constitue soit un signe encourageant de progrès réels, soit un détail très précis choisi pour rassurer les investisseurs. Probablement les deux. Selon Tom's Hardware, le circuit est passé du concept à la sortie de fabrication en neuf mois, un rythme que le rapport qualifie d'ultra-rapide pour un ASIC de taille réticule. Les propres modèles d'IA d'OpenAI auraient accéléré la conception et l'optimisation du circuit pendant cette période, ce qui signifie que Jalapeno est, de manière agréablement récursive, un produit IA qui a été en partie conçu par une IA.
L'argument économique, c'est tout l'argument
Les histoires de silicium personnalisé se présentent habituellement avec des benchmarks de performance et des schémas architecturaux, mais l'argument réel est presque toujours économique. Selon AI Weekly, le PDG de Broadcom, Hock Tan, a publiquement évoqué des économies d'environ 50 % par rapport aux GPU IA classiques, faisant de cette donnée le premier chiffre de coût concret émanant de l'une ou l'autre entreprise. Pour une activité qui fait tourner l'inférence à l'échelle d'OpenAI, une réduction de 50 % du coût de calcul n'est pas une note de bas de page ; c'est l'intégralité de la justification économique du sprint de neuf mois, du partenariat pluriannuel et des coûts organisationnels liés au fait de devenir, en pratique, une entreprise de circuits intégrés.
Le compromis inhérent aux ASIC est réel et mérite d'être nommé clairement. Les GPU polyvalents justifient leur prime en partie par leur flexibilité : on peut réentraîner, affiner, expérimenter et réorienter des charges de travail sans reconcevoir le silicium. Un ASIC parie que vos schémas d'inférence sont suffisamment stables pour que la spécialisation soit rentable. OpenAI fait ce pari explicitement, et AI Weekly note que Jalapeno est étroitement calibré pour l'inférence LLM, sacrifiant l'adaptabilité au profit du coût et de l'efficacité à grande échelle. Si les schémas de service des LLM évoluent radicalement, le circuit ne s'adaptera pas avec eux. C'est le risque incorporé dans le chiffre d'économies.
La structure du partenariat derrière le circuit
Jalapeno n'est pas un projet solo. Selon DBTA, OpenAI a conçu le circuit de zéro autour de ses fondamentaux LLM, tandis que Broadcom et Celestica ont géré l'implémentation du circuit, l'intégration des systèmes de carte et de rack, la mise en réseau haute performance et les systèmes de production évolutifs. Cette division du travail est importante : OpenAI apporte la connaissance des modèles et les exigences d'inférence ; Broadcom apporte l'expérience d'exécution en silicium ; Celestica industrialise la pile physique. C'est une séparation nette de ce que chaque partie fait réellement bien, ce qui est plus rare dans les partenariats technologiques que les communiqués de presse ne le laissent entendre.
La collaboration stratégique précède cette annonce de circuit de plusieurs mois. Selon la propre annonce d'OpenAI d'octobre 2025, les entreprises s'étaient déjà engagées à déployer 10 gigawatts d'accélérateurs IA conçus par OpenAI dans le cadre d'un partenariat pluriannuel couvrant les accélérateurs et les systèmes de réseau pour les clusters IA de nouvelle génération. Jalapeno est le premier produit qui se concrétise dans le cadre de cet engagement, et non une annonce isolée. Il s'agit de la première génération d'une plateforme de calcul multi-générationnelle déclarée, selon le communiqué aux investisseurs de Broadcom.
Ce que les développeurs devraient vraiment surveiller
Pour quiconque réfléchit à l'infrastructure IA au-delà du projet immédiat qui lui fait face, l'annonce de Jalapeno porte un signal structurel qui mérite d'être suivi. OpenAI parie explicitement que posséder la couche d'inférence — et pas seulement louer du temps GPU — est la façon de contrôler les coûts et la latence à grande échelle. Cette logique ne vous oblige pas à construire votre propre circuit ; elle vous oblige à réfléchir à l'évolution de vos coûts d'inférence à mesure que l'utilisation croît, et à vous demander si la prime de flexibilité que vous payez pour du matériel polyvalent vous apporte vraiment quelque chose d'utile.
L'objectif de déploiement de 10 gigawatts tiré de l'annonce de collaboration d'octobre 2025 suggère qu'OpenAI ne traite pas Jalapeno comme une simple couverture de risque. C'est une direction d'infrastructure principale. Pour le reste de l'écosystème des développeurs IA, la question aval intéressante est de savoir si l'expérience de Broadcom dans la co-conception de cette plateforme produira éventuellement des options de silicium d'inférence qui ne sont pas exclusives à OpenAI. Cela n'a pas été annoncé. Mais les schémas de conception, le processus de sortie de fabrication en neuf mois prétendument accéléré par des modèles IA, et le modèle de partenariat en couches entre propriétaire de modèle, concepteur de circuit et intégrateur de systèmes sont tous des éléments à surveiller à mesure que d'autres grands opérateurs d'inférence font face au même calcul économique.
