
Le groupe Alibaba a dévoilé Aegaeon, un nouveau système de mutualisation des GPU conçu pour réduire considérablement la dépendance au matériel Nvidia pour les charges de travail liées à l'intelligence artificielle (IA). Présenté lors d'un Symposium à Séoul, ce système permettrait de réduire l'utilisation des GPU de 82 %, faisant passer les besoins de 1 192 à 213 unités Nvidia H20 pour les modèles comportant jusqu'à 72 milliards de paramètres. Testé sur la place de marché des modèles d'Alibaba Cloud, Aegaeon permet à plusieurs modèles d'IA de partager un seul GPU, remédiant ainsi à certaines inefficacités du service de modèles à grande échelle.
Cette initiative d'Alibaba Cloud survient alors que les ventes de puces d'IA avancées de Nvidia à la Chine ont complètement cessé en raison des contrôles à l'exportation de Donald Trump. Le PDG de Nvidia, Jensen Huang, a déclaré en octobre dernier que la société ne prévoit désormais plus aucun chiffre d'affaires en provenance de Chine et que cette exclusion pourrait entraver le développement mondial de l'IA.
Alibaba Group Holding Ltd, commercialisée sous le nom d'Alibaba, est une multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, l'Internet et les technologies. Fondée le 28 juin 1999 à Hangzhou, la société fournit des services de vente C2C, B2C et B2B via des places de marché chinoises et mondiales, ainsi que d'autres services, allant de la logistique et au cloud computing. En 2020, Alibaba a occupé la 31e place du classement Forbes Global 2000 des plus grandes entreprises cotées en bourse au monde. Elle a également été classée cinquième entreprise dans le domaine de l'intelligence artificielle cette même année.
Alibaba Group Holding a lancé un nouveau système de mutualisation informatique nommé Aegaeon, qui réduit de 82 % la dépendance aux GPU Nvidia pour les modèles d'IA. Cette innovation a été testée pendant plus de trois mois sur la place de marché des modèles d'Alibaba Cloud, selon un article de recherche présenté lors du 31e Symposium sur les principes des systèmes d'exploitation (SOSP) à Séoul, en Corée du Sud. Le système Aegaeon a réussi à réduire le nombre de GPU Nvidia H20 nécessaires de 1 192 à seulement 213 pour prendre en charge des modèles comportant jusqu'à 72 milliards de paramètres.
Aperçu système d'Aegaeon
Les chercheurs de l'université de Pékin et d'Alibaba Cloud ont souligné les coûts élevés associés au traitement simultané de charges de travail de grands modèles de langage. « Aegaeon est le premier travail à révéler les coûts excessifs associés à la prise en charge simultanée de charges de travail LLM sur le marché », ont déclaré les chercheurs dans leur article.
Un GPU pour plusieurs modèles
Alibaba Cloud, la division IA et services cloud d'Alibaba, basée à Hangzhou, vise à améliorer l'efficacité en mutualisant les ressources GPU, permettant ainsi à un seul GPU de prendre en charge plusieurs modèles.
Le système remédie à l'inefficacité des ressources, car auparavant, 17,7 % des GPU étaient alloués pour traiter seulement 1,35 % des demandes sur la place de marché d'Alibaba Cloud.
Les fournisseurs de services cloud tels qu'Alibaba Cloud et Volcano Engine de ByteDance gèrent simultanément des milliers de modèles d'IA, ce qui entraîne souvent des inefficacités. Le système Aegaeon vise à optimiser ce processus en réduisant le nombre de GPU nécessaires.
Utilisation du GPU avant et après le déploiement d'Aegaeon, sur une période de 70 heures
Inquiétudes croissantes concernant la présence de Nvidia en Chine
Cette évolution intervient dans un contexte d'inquiétudes croissantes concernant la présence de Nvidia en Chine. Récemment, la Chine a soulevé des préoccupations en matière de sécurité concernant les puces H20 de Nvidia, notamment en ce qui concerne les risques potentiels de porte dérobée. Dans le cadre de son accord avec Nvidia, l'administration Trump a conclu un accord prévoyant une part de 15 % des revenus provenant des ventes de puces de la société à la Chine.
Le PDG de Nvidia, Jensen Huang, a déclaré que la part de marché de Nvidia en Chine avait chuté de 95 % à zéro. Il s'est dit préoccupé par l'impact des politiques américaines sur la présence de Nvidia sur le marché chinois.
Malgré ces difficultés, Nvidia s'est protégée financièrement contre une éventuelle escalade, car ses prévisions tablent sur un chiffre d'affaires nul en Chine, selon Jensen Huang.
Alors qu'Alibaba réduit drastiquement sa dépendance au matériel Nvidia grâce à Aegaeon, la multinationale poursuit une stratégie plus large d’autonomie technologique. La récente initiatve complète les efforts déjà engagés par le groupe avec le développement de ses propres puces IA aux spécifications dignes des H20 de Nvidia. L’objectif est clair : offrir aux acteurs chinois du cloud une alternative crédible aux GPU occidentaux, dans un contexte géopolitique tendu autour du contrôle des semi-conducteurs.
Le résumé de l'article de recherche est présenté ci-dessous :
« Les places de marché de modèles (par exemple, Hugging Face) proposent une grande variété de modèles présentant des caractéristiques uniques et des niveaux de popularité variables. Le traitement de requêtes sporadiques et imprévisibles dans des charges de travail d'inférence simultanées avec des instances GPU dédiées entraîne un gaspillage considérable de ressources. Si les solutions multi-modèles existantes utilisent le regroupement de GPU et le calcul sans serveur pour améliorer l'efficacité des ressources, leur efficacité se limite à la prise en charge de deux ou trois modèles par GPU au maximum, ce qui est insuffisant pour exploiter pleinement les ressources GPU.
Nous proposons Aegaeon, un système de service multimodèle qui effectue un auto-scaling des modèles à la granularité des jetons afin d'obtenir un regroupement efficace des GPU. Aegaeon planifie les demandes multimodèles et prend des décisions d'auto-scaling sur la base de chaque jeton afin d'optimiser la qualité du service. Il réduit la surcharge liée à l'auto-scaling de 97 % grâce à la réutilisation des composants, à la gestion explicite de la mémoire et à la synchronisation fine du cache KV.
Les expériences montrent qu'Aegaeon supporte des taux d'arrivée de requêtes 2 à 2,5 fois plus élevés ou un débit 1,5 à 9 fois supérieur à celui des solutions existantes. Aegaeon a été déployé en version bêta sur notre place de marché de modèles et sert actuellement des dizaines de modèles. Les résultats du déploiement montrent qu'Aegaeon réduit le nombre de GPU nécessaires pour servir ces modèles de 1 192 à 213, ce qui représente une économie de 82 % en ressources GPU. »
Source : Article de recherche de l'université de Pékin et d'Alibaba Cloud
Et vous ?


Voir aussi :




Vous avez lu gratuitement 15 111 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.