Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l'IA de pointe. Apprendre encore plus
Cet article fait partie d'un numéro spécial VB intitulé « Match for Goal : Tailoring AI Infrastructure ». Découvrez toutes les autres histoires ici.
Les centres de données sont le backend d’Web que nous connaissons. Qu'il s'agisse de Netflix ou de Google, toutes les grandes entreprises exploitent les centres de données et les systèmes informatiques qu'ils hébergent pour fournir des providers numériques aux utilisateurs finaux. Alors que les entreprises se tournent vers des prices de travail d'IA avancées, les serveurs traditionnels centrés sur le processeur des centres de données sont améliorés grâce à l'intégration de nouvelles puces spécialisées ou « coprocesseurs ».
À la base, l’idée derrière ces coprocesseurs est d’introduire une sorte de module complémentaire pour améliorer la capacité de calcul des serveurs. Cela leur permet de gérer les exigences de calcul des prices de travail telles que la formation en IA, l'inférence, l'accélération des bases de données et les fonctions réseau. Au cours des dernières années, les GPU, menés par Nvidia, sont devenus le choix privilégié des coprocesseurs en raison de leur capacité à traiter de gros volumes de données à des vitesses inégalées. En raison de la demande croissante, les GPU représentaient l'année dernière 74 % des coprocesseurs alimentant les cas d'utilisation de l'IA dans les centres de données, selon une étude de Groupe Futurum.
Selon l'étude, la domination des GPU ne devrait que croître, les revenus de cette catégorie augmentant de 30 % par an pour atteindre 102 milliards de {dollars} d'ici 2028. Mais voilà : alors que les GPU, avec leur structure de traitement parallèle, constituent un compagnon solide pour accélérant toutes sortes de prices de travail d'IA à grande échelle (comme la formation et l'exécution de modèles de langage de paramètres massifs, de milliers de milliards ou le séquençage du génome), leur coût whole de possession peut être très élevé. Par exemple, la « superpuce » phare GB200 de Nvidia, qui mix un processeur Grace et deux GPU B200, devrait coûter entre 60 000 et 70 000 {dollars}. Un serveur doté de 36 de ces superpuces coûterait environ 2 hundreds of thousands de {dollars}.
Même si cela peut fonctionner dans certains cas, comme pour les projets à grande échelle, cela ne convient pas à toutes les entreprises. De nombreux responsables informatiques d'entreprise cherchent à intégrer de nouvelles applied sciences pour prendre en cost certaines prices de travail d'IA de faible à moyenne intensité, en mettant particulièrement l'accent sur le coût whole de possession, l'évolutivité et l'intégration. Après tout, la plupart des modèles d'IA (réseaux d'apprentissage profond, réseaux de neurones, grands modèles de langage, and many others.) sont en section de maturation et les besoins se déplacent vers l'inférence de l'IA et l'amélioration des performances pour des prices de travail spécifiques telles que la reconnaissance d'photos, les systèmes de recommandation ou l'identification d'objets – tandis que être efficace en même temps.
>>Ne manquez pas notre numéro spécial : Match for Goal: Tailoring AI Infrastructure.
C’est exactement là qu’intervient le paysage émergent des processeurs et accélérateurs d’IA spécialisés, construits par les fabricants de puces, les startups et les fournisseurs de cloud.
Que sont exactement les processeurs et accélérateurs d’IA ?
À la base, les processeurs et accélérateurs d’IA sont des puces intégrées à l’écosystème CPU des serveurs et se concentrant sur des fonctions d’IA spécifiques. Ils s'articulent généralement autour de trois architectures clés : les circuits intégrés spécifiques à une utility (ASIC), les réseaux de portes programmables sur web site (FPGA) et l'innovation la plus récente des unités de traitement neuronal (NPU).
Les ASIC et les FPGA existent depuis un sure temps, la programmabilité étant la seule différence entre les deux. Les ASIC sont construits sur mesure dès le départ pour une tâche spécifique (qui peut ou non être liée à l'IA), tandis que les FPGA peuvent être reconfigurés ultérieurement pour implémenter une logique personnalisée. Les NPU, pour leur half, se différencient des deux en servant de matériel spécialisé qui ne peut qu'accélérer les prices de travail IA/ML telles que l'inférence et la formation de réseaux neuronaux.
« Les accélérateurs ont tendance à être capables de remplir n'importe quelle fonction individuellement, et parfois, avec une conception ASIC à l'échelle d'une tranche ou à plusieurs puces, ils peuvent être capables de gérer quelques functions différentes. Les NPU sont un bon exemple de puce spécialisée (généralement partie d'un système) succesful de gérer un sure nombre de cas d'utilisation de mathématiques matricielles et de réseaux neuronaux ainsi que diverses tâches d'inférence en utilisant moins d'énergie », a déclaré Daniel Newman, PDG du groupe Futurum, à Venturebeat.
Le meilleur, c'est que les accélérateurs, notamment les ASIC et les NPU conçus pour des functions spécifiques, peuvent s'avérer plus efficaces que les GPU en termes de coût et de consommation d'énergie.
« Les conceptions de GPU se concentrent principalement sur les unités arithmétiques et logiques (ALU) afin qu'elles puissent effectuer des milliers de calculs simultanément, tandis que les conceptions d'accélérateurs d'IA se concentrent principalement sur les cœurs ou unités de processeur tensoriel (TPC). En général, les performances des accélérateurs d'IA par rapport aux performances des GPU sont basées sur la fonction fixe de cette conception », a déclaré à VentureBeat Rohit Badlaney, directeur général des plates-formes cloud et industrielles d'IBM.
Actuellement, IBM go well with une approche de cloud hybride et utilise plusieurs GPU et accélérateurs d'IA, y compris les offres de Nvidia et Intel, dans sa pile pour offrir aux entreprises des choix répondant aux besoins de leurs prices de travail et functions uniques, avec des performances et une efficacité élevées.
« Nos options full-stack sont conçues pour contribuer à transformer la manière dont les entreprises, les développeurs et la communauté open supply créent et exploitent l’IA générative. Les accélérateurs d’IA sont l’une des offres que nous considérons comme très avantageuses pour les purchasers cherchant à déployer l’IA générative », a déclaré Badlaney. Il a ajouté que même si les systèmes GPU sont les mieux adaptés à la formation et au réglage fin de grands modèles, il existe de nombreuses tâches d'IA que les accélérateurs peuvent gérer tout aussi bien – et à moindre coût.
Par exemple, les serveurs virtuels IBM Cloud utiliser l'accélérateur Gaudi 3 d'Intel avec une pile logicielle personnalisée conçue spécifiquement pour l'inférence et les fortes demandes de mémoire. La société prévoit également d'utiliser l'accélérateur pour affiner les prices de travail de formation by way of de petits clusters de plusieurs systèmes.
« Les accélérateurs d'IA et les GPU peuvent être utilisés efficacement pour certaines prices de travail similaires, telles que les LLM et les modèles de diffusion (génération d'photos comme Secure Diffusion) jusqu'à la reconnaissance, la classification et le doublage vocal normal d'objets. Cependant, les avantages et les différences entre les accélérateurs d'IA et les GPU dépendent entièrement de la conception du fournisseur de matériel. Par exemple, l’accélérateur Gaudi 3 AI a été conçu pour fournir des améliorations significatives en matière de calcul, de bande passante mémoire et d’efficacité énergétique basée sur l’structure », a expliqué Badlaney.
Selon lui, cela se traduit directement par des avantages en termes de rapport qualité-prix.
Au-delà d’Intel, d’autres accélérateurs d’IA attirent également l’consideration sur le marché. Cela inclut non seulement des puces personnalisées conçues pour et par des fournisseurs de cloud public tels que Google, AWS et Microsoft, mais également des produits dédiés (NPU dans certains cas) de startups telles que Groq, Graphcore, SambaNova Methods et Cerebras Methods. Ils se démarquent tous à leur manière, défiant les GPU dans différents domaines.
Dans un cas, Tractable, une société développant l'IA pour analyser les dommages causés aux biens et aux véhicules en vue de réclamations d'assurance, a pu exploiter le système Clever Processing Unit-POD de Graphcore (une offre NPU spécialisée) pour des features de performances significatifs par rapport aux GPU qu'ils utilisaient auparavant.
«Nous avons constaté un achieve de vitesse d'environ 5 fois», Razvan Ranca, co-fondateur et CTO de Tractable, a écrit dans un article de weblog. « Cela signifie qu'un chercheur peut désormais mener potentiellement cinq fois plus d'expériences, ce qui signifie que nous accélérons l'ensemble du processus de recherche et de développement et que nous obtenons finalement de meilleurs modèles dans nos produits. »
Les processeurs d’IA alimentent également les prices de travail de formation dans certains cas. Par exemple, le supercalculateur IA du centre de données d'Aleph Alpha utilise Cérébras CS-3le système alimenté par le Wafer Scale Engine de troisième génération de la startup avec 900 000 cœurs d'IA, pour créer des modèles d'IA souverains de nouvelle génération. Même l'ASIC personnalisé récemment introduit par Google, TPU v5pgénère certaines prices de travail de formation en IA pour des entreprises comme Salesforce et Lightricks.
Quelle devrait être l’approche de sélection des accélérateurs ?
Maintenant qu'il est établi qu'il existe de nombreux processeurs d'IA au-delà des GPU pour accélérer les prices de travail d'IA, en particulier l'inférence, la query est : remark un responsable informatique choisit-il la meilleure choice dans laquelle investir ? Certaines de ces puces peuvent offrir de bonnes performances et une grande efficacité, mais peuvent être limitées en termes de sort de tâches d'IA qu'elles peuvent gérer en raison de leur structure. D'autres peuvent faire plus, mais la différence de TCO n'est peut-être pas aussi énorme par rapport aux GPU.
Étant donné que la réponse varie en fonction de la conception des puces, tous les consultants avec lesquels VentureBeat s'est entretenu ont suggéré que la sélection devrait être basée sur l'ampleur et le sort de cost de travail à traiter, les données, la probabilité d'itérations/changements continus et les besoins en matière de coût et de disponibilité.
Selon Daniel Kearney, le CTO de Nuage de métal durablequi aide les entreprises dans la formation et l'inférence en matière d'IA, il est également essential que les entreprises effectuent des exams de référence pour tester les avantages en termes de prix et de performances et s'assurer que leurs équipes connaissent l'écosystème logiciel plus giant qui prend en cost les accélérateurs d'IA respectifs.
« Bien que les informations détaillées sur la cost de travail ne soient pas nécessairement disponibles à l'avance ou ne soient pas concluantes pour appuyer la prise de décision, il est recommandé de comparer et de tester avec des prices de travail représentatives, des exams dans le monde réel et des informations réelles disponibles, évaluées par des pairs, lorsqu'elles sont disponibles pour fournir une approche basée sur les données pour choisir le bon accélérateur d'IA pour la bonne cost de travail. Cette enquête préalable peut permettre d'économiser beaucoup de temps et d'argent, en particulier pour les tâches de formation importantes et coûteuses », a-t-il suggéré.
À l’échelle mondiale, avec les travaux d’inférence en voie de croissance, le marché whole du matériel d’IA, y compris les puces, les accélérateurs et les GPU d’IA, devrait croître de 30 % par an pour atteindre 138 milliards de {dollars} d’ici 2028.
la source