Alexa, le service vocal de cloud computing d’Amazon, est sur le point de devenir beaucoup plus puissant car l’équipe Amazon Alexa a migré la grande majorité de ses charges de travail d’inférence de machine basées sur GPU vers des instances Amazon EC2 Inf1.
Ces nouvelles instances sont alimentées par AWS Inferentia et la mise à niveau a permis de réduire de 25% la latence de bout en bout et de réduire de 30% le coût par rapport aux instances basées sur GPU pour les charges de travail de synthèse vocale d’Alexa.
À la suite du passage aux instances EC2 Inf1, les ingénieurs d’Alexa pourront désormais commencer à utiliser des algorithmes plus complexes afin d’améliorer l’expérience globale des propriétaires du nouvel Amazon Echo et d’autres appareils alimentés par Alexa.
En plus des appareils Amazon Echo, plus de 140000 modèles de haut-parleurs, lumières, prises, téléviseurs intelligents et appareils photo intelligents sont alimentés par le service vocal basé sur le cloud d’Amazon. Chaque mois, des dizaines de millions de clients interagissent avec Alexa pour contrôler leurs appareils domestiques, écouter de la musique et la radio, rester informés ou être éduqués et divertis avec plus de 100000 compétences Alexa disponibles pour la plate-forme.
Dans un communiqué de presse, l’évangéliste technique d’AWS Sébastien Stormacq a expliqué pourquoi l’équipe Amazon Alexa a décidé de passer des charges de travail d’inférence de machines basées sur le GPU, en disant:
«Alexa est l’un des services d’apprentissage automatique hyperscale les plus populaires au monde, avec des milliards de demandes d’inférence chaque semaine. Parmi les trois principales charges de travail d’inférence d’Alexa (ASR, NLU et TTS), les charges de travail TTS s’exécutaient initialement sur des instances basées sur GPU. Mais l’équipe d’Alexa a décidé de passer aux instances Inf1 aussi vite que possible pour améliorer l’expérience client et réduire le coût de calcul du service. »
Sommaire
AWS Inferentia
AWS Inferentia est une puce personnalisée conçue par AWS pour accélérer les charges de travail d’inférence de machine learning tout en optimisant leur coût.
Chaque puce contient quatre NeuronCores et chaque cœur implémente un moteur de multiplication matricielle systolique haute performance qui permet d’accélérer massivement les opérations d’apprentissage en profondeur telles que la convolution et les transformateurs. NeuronCores est également équipé d’un grand cache sur puce qui réduit les accès à la mémoire externe pour réduire considérablement la latence tout en augmentant le débit.
Pour les utilisateurs souhaitant tirer parti d’AWS Inferentia, la puce personnalisée peut être utilisée de manière native à partir de frameworks d’apprentissage automatique populaires, notamment TensorFlow, PyTorch et MXNet avec le kit de développement logiciel AWS Neuron.
En plus de l’équipe Alexa, Amazon Rekognition adopte également la nouvelle puce, car les modèles en cours d’exécution tels que la classification d’objets sur les instances Inf1 ont entraîné une latence huit fois plus faible et un débit doublé par rapport à l’exécution de ces modèles sur des instances GPU.