AWS et Facebook lancent un serveur de modèle open source pour PyTorch

AWS et Facebook a annoncé aujourd’hui deux nouveaux projets open source autour de PyTorch, le framework d’apprentissage machine open source populaire. Le premier d’entre eux est TorchServe, un cadre de service de modèle pour PyTorch qui permettra aux développeurs de mettre plus facilement leurs modèles en production. L’autre est TorchElastic, une bibliothèque qui permet aux développeurs de créer plus facilement des tâches de formation tolérantes aux pannes sur les clusters Kubernetes, y compris les instances ponctuelles EC2 d’AWS et Elastic Kubernetes Service.

À bien des égards, les deux sociétés exploitent à grande échelle ce qu’elles ont appris en exploitant leurs propres systèmes d’apprentissage automatique et les mettent dans le projet. Pour AWS, il s’agit principalement de SageMaker, la plate-forme d’apprentissage automatique de l’entreprise, mais comme me l’a dit Bratin Saha, AWS VP et GM pour Machine Learning Services, le travail sur PyTorch était principalement motivé par les demandes de la communauté. Et bien qu’il existe évidemment d’autres serveurs modèles comme TensorFlow Serving et Multi Model Server disponibles aujourd’hui, Saha fait valoir qu’il serait difficile d’optimiser ceux de PyTorch.

«Si nous essayions de prendre un autre serveur modèle, nous ne serions pas en mesure de l’optimiser autant que de le créer dans les nuances de la façon dont PyTorch les développeurs aiment voir cela », a-t-il déclaré. AWS a beaucoup d’expérience dans l’exécution de ses propres serveurs modèles pour SageMaker qui peuvent gérer plusieurs infrastructures, mais la communauté demandait un serveur modèle adapté à leur fonctionnement. Cela signifiait également d’adapter l’API du serveur à ce que les développeurs PyTorch attendent de leur framework de choix, par exemple.

Comme Saha me l’a dit, le serveur qu’AWS et Facebook lancent maintenant en open source est similaire à ce qu’AWS utilise en interne. « C’est assez proche », a-t-il déclaré. « Nous avons en fait commencé avec ce que nous avions en interne pour l’un de nos modèles de serveurs, puis nous l’avons mis à la disposition de la communauté, avons travaillé en étroite collaboration avec Facebook, pour itérer et obtenir des commentaires – puis l’avons modifié pour qu’il soit assez proche. »

Bill Jia, vice-président de l’infrastructure IA de Facebook, m’a également dit qu’il était très heureux de la façon dont son équipe et la communauté avaient fait avancer PyTorch ces dernières années. «Si vous regardez l’ensemble de la communauté industrielle – un grand nombre de chercheurs et d’utilisateurs d’entreprise utilisent AWS», a-t-il déclaré. «Et puis nous avons compris si nous pouvions collaborer avec AWS et pousser PyTorch ensemble, alors Facebook et AWS peuvent obtenir de nombreux avantages, mais plus encore, tous les utilisateurs peuvent obtenir de nombreux avantages de PyTorch. C’est la raison pour laquelle nous avons voulu collaborer avec AWS. »

Quant à TorchElastic, l’accent est mis ici sur la possibilité pour les développeurs de créer des systèmes de formation qui peuvent fonctionner sur de grands clusters Kubernetes distribués où vous voudrez peut-être utiliser des instances ponctuelles moins chères. Ce sont des mesures préemptives, donc votre système doit être capable de gérer cela, alors que traditionnellement, les cadres de formation en apprentissage automatique attendent souvent un système où le nombre d’instances reste le même tout au long du processus. C’est également quelque chose qu’AWS a initialement conçu pour SageMaker. Là, il est entièrement géré par AWS, donc les développeurs n’ont jamais à y penser. Pour les développeurs qui souhaitent plus de contrôle sur leurs systèmes d’entraînement dynamiques ou pour rester très proches du métal, TorchElastic leur permet désormais de recréer cette expérience sur leurs propres clusters Kubernetes.

AWS a une certaine réputation en ce qui concerne l’open source et son engagement avec la communauté open source. Dans ce cas, cependant, il est agréable de voir AWS montrer la voie pour apporter une partie de son propre travail sur la construction de serveurs modèles, par exemple, à la communauté PyTorch. Dans l’écosystème de l’apprentissage automatique, c’est très attendu, et Saha a souligné qu’AWS s’est longtemps engagé avec la communauté en tant que l’un des principaux contributeurs à MXNet et à travers ses contributions à des projets comme Jupyter, TensorFlow et des bibliothèques comme NumPy.

Traduit de l’anglais de https://techcrunch.com/2020/04/21/aws-and-facebook-launch-an-open-source-model-server-for-pytorch/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.