Personne n'aime attendre. Cela est particulièrement vrai en ce qui concerne les travaux de traitement par lots pour les projets de Big Data tels que la recherche génomique, la construction d'un avion et des matériaux pour la sécurité, et les exigences massives pour le traitement des données liées aux dossiers médicaux et financiers.
Pour les informaticiens, les développeurs, les ingénieurs ou toute personne qui doit exécuter un travail de traitement par lots, les besoins sont encore plus importants. En raison des besoins massifs de données – souvent à l'échelle du pétaoctet – les tâches doivent souvent être mises en file d'attente pour le traitement et déterminées par les ressources de calcul de ce centre de données local sur site. Un exemple de ceci pourrait être une simulation pour déterminer la sécurité d'un nouveau matériau à utiliser dans une future voiture.
Il existe de nombreuses variables – l'impact sur le matériau, la température et la vitesse du conducteur, sans parler des propriétés chimiques du matériau lui-même. C'est un effort extraordinaire de Big Data, mais il y a aussi des délais de commercialisation et des délais de projet.
Le traitement par lots fait référence à une opération informatique qui exécute plusieurs demandes de calcul sans que l'utilisateur n'ait à lancer un autre processus. Le nom vient des premiers jours de l'informatique lorsque les utilisateurs finaux devaient lancer chaque processus informatique un par un. Avec le traitement par lots, vous pouvez mettre en file d'attente les demandes de traitement, puis permettre au service de faire le gros du travail en termes de planification des demandes, d'ajustement des performances de calcul et d'allocation de la mémoire et du stockage nécessaires pour exécuter les travaux par lots. De plus, vous pouvez planifier l'exécution simultanée de plusieurs travaux de traitement par lots, en exploitant la véritable puissance du cloud computing.
Étant donné que cette planification se produit automatiquement entre AWS Batch et les services Amazon associés dont vous avez besoin – tels qu'Amazon EC2 (Elastic Cloud Compute) – il n'est pas nécessaire de configurer un logiciel pour la gestion ou le traitement informatique. AWS Batch coordonne les services informatiques dont vous avez besoin pour le projet en cours sans autre intervention de l'utilisateur.
Pour ceux qui ont une forte demande de traitement de données, cela permet au personnel de se concentrer davantage sur la gestion de projet réelle et les exigences commerciales, les résultats des calculs, la mise en file d'attente de plus de travaux de traitement par lots, et l'analyse des résultats et la prise de décisions sur ce qu'il faut faire ensuite. . AWS Batch fournit tous les cadres nécessaires pour effectuer le traitement par lots.
Sommaire
Avantages d'AWS Batch
Un avantage secondaire de l'utilisation d'AWS pour le traitement par lots avec AWS Batch est que vous pouvez profiter des instances ponctuelles, un service inclus avec Amazon EC2. Les instances ponctuelles sont des ressources de calcul inutilisées à moindre coût et disponibles pour le traitement par lots au lieu des services à la demande. Ces économies de coûts entrent en jeu à mesure que des instances ponctuelles deviennent disponibles. En fin de compte, cela signifie de grandes économies pour tous les traitements par lots – et configuré automatiquement pour vous.
En raison de la façon dont le stockage dans le cloud, les performances, la mémoire, l'infrastructure et les serveurs sont tous automatisés en fonction des exigences de traitement par lots, et parce que l'utilisateur final n'a pas besoin de configurer l'une de ces ressources de calcul, AWS Batch aide à simplifier l'ensemble du Big Effort de données, en particulier en termes de coordination entre AWS. C'est souvent la partie la plus difficile et la plus longue d'un projet Big Data, car les scientifiques et les ingénieurs qui exécutent le projet de traitement par lots ne sont pas nécessairement des experts en infrastructure ou en gestion de services informatiques.
Ils n'ont pas besoin de connaître les allocations de mémoire, les matrices de stockage, la configuration du serveur ou comment ces composants à l'intérieur d'un centre de données fonctionnent en tandem pour produire les résultats souhaités.
Un autre avantage concerne les coûts. Lorsque les entreprises n'ont pas à gérer et configurer l'environnement de calcul pour le traitement par lots, elles n'ont pas à prendre le temps et les dépenses nécessaires pour s'assurer que tout est opérationnel 24h / 24 et 7j / 7 et elles n'ont pas à acheter équipement. Au lieu de cela, AWS Batch alloue automatiquement les ressources de calcul exactes dont vous avez besoin pour ce projet, et vous ne payez que pour les ressources de calcul que vous utilisez réellement. Cela est vrai pour chaque travail de traitement par lots, y compris les travaux simultanés que vous pouvez exécuter.
Non seulement une entreprise évite les tâches de gestion et les coûts d'exploitation d'un centre de données sur site, mais elle n'a pas à coordonner les différents services nécessaires au traitement par lots. Un exemple de ceci pourrait être un projet de recherche génomique massif pour la découverte de médicaments.
Un produit pharmaceutique peut commencer avec des besoins de base pour le traitement par lots en utilisant une quantité minimale de stockage, mais normalement, à mesure que le projet s'intensifie et que les besoins de traitement augmentent, le projet peut se bloquer lorsque l'entreprise coordonne les divers services, tels que le stockage, la mise en réseau, le point final. sécurité ou allocations de mémoire. Il est avantageux de ne pas avoir à gérer ces services, à les ajouter et à les maintenir, ou à s’assurer qu’ils sont sécurisés pour tous les travaux de traitement par lots.