Connectez-vous avec nous

Ordinateurs et informatique

Qu'est-ce que AWS Glue? | TechRadar

La gestion des données est un travail à temps plein pour certains (littéralement). Surtout dans une grande entreprise, il peut y avoir des demandes pour exécuter un rapport d'analyse, déplacer des données d'un référentiel vers un autre, ou même créer des «données propres» pour une nouvelle application Web importante. En termes de gestion des données, les services de cloud computing offrent une extrême flexibilité dans ce que vous pouvez faire avec les rapports de données, et il existe de nombreux outils disponibles, en particulier pour Amazon Web Services (ou AWS).

AWS Glue est l'un de ces outils de gestion de stockage de données et cloud. Il est connu sous le nom d'ETL géré, ce qui signifie qu'il est utilisé pour extraire, transformer et charger des données en préparation des rapports et des analyses. AWS Glue est un catalogue de données pour stocker des métadonnées dans un référentiel central. C'est un moyen d'automatiser ETL afin de pointer AWS Glue vers les données stockées dans AWS. Les données deviennent consultables et interrogeables pour tous les rapports et analyses cloud que vous devez utiliser.

Il est utile de comprendre ETL avant de plonger dans AWS Glue et les avantages de son utilisation. ETL est la façon dont les employés de la gestion des données d'une entreprise fusionnent les données afin qu'elles puissent être utilisées pour une requête. Il peut y avoir plusieurs magasins de données et plusieurs bases de données cloud, mais l'ETL prépare les données sans avoir à déplacer les magasins de données. ETL prépare essentiellement les données afin qu'elles soient prêtes pour l'analyse et la génération de rapports, par opposition à l'alternative qui consiste à déplacer réellement les données, à les isoler, puis à exécuter des requêtes en préparation de toute analyse ou de tout rapport.

AWS Glue est l'outil qui génère du code ETL pour les langages de programmation Scala ou Python. Essentiellement, une fois que vous avez généré les données du catalogue, vous pouvez ensuite effectuer des recherches et des requêtes sur les données à l'aide d'outils de cloud computing tels qu'Amazon Athena, Amazon EMR et Amazon Redshift Spectrum, tous conçus pour aider les entreprises à stocker et à utiliser des données dans des applications. AWS Glue fonctionne également avec Virtual Private Cloud (Amazon VPC) sur Amazon EC2.

Pour comprendre ce qu'est AWS Glue, il est utile de comprendre comment cela fonctionne. Pour commencer, les employés de la gestion des données, les développeurs et les scientifiques des données peuvent utiliser AWS Management Console pour enregistrer les sources de données. Après avoir analysé les données, l'ETL créera ensuite des catalogues à l'aide de classificateurs tels que JSON, CSV et Parquet. Les employés sélectionneront ensuite une source pour l'ETL et généreront le code nécessaire pour le reporting et l'analyse. Enfin, l'ETL peut planifier des travaux récurrents et préparer les données pour des outils comme AWS Lambda.

Avantages d'AWS Glue

Le principal avantage d'AWS Glue est sa flexibilité. De nombreuses entreprises utilisent désormais un lac de données qui contient une multitude de données structurées et non structurées. Dans le passé, les entreprises étaient obligées de déplacer les données dans un nouveau référentiel, de gérer sans fin les données et de se soucier des serveurs et de l'infrastructure nécessaires à leurs applications. En parlant d'un emploi à temps plein! Ce fut une période compliquée dans l'histoire des technologies de l'information, tout cela avant le cloud.

Avec AWS Glue, il n'est pas nécessaire d'avoir un serveur sur site (car il est entièrement sans serveur et fonctionne comme un ETL géré) ou même votre propre centre de données, vos propres magasins de gestion de données locaux ou un employé dédié qui gère les données. Au lieu de cela, AWS Glue est la colle qui relie les données disparates et les rend prêtes et disponibles pour les requêtes.

AWS Glue est également hautement automatisé. Il peut analyser des sources de données disparates, identifier les formats et suggérer comment utiliser les données. Une fois qu'AWS Glue a fait tout cela, il peut alors générer le code dont vous avez besoin pour toutes les requêtes de données, transformations ou processus.

Une distinction importante à faire ici est qu'AWS Glue effectue tout son traitement ETL dans le cloud. Cela signifie que les employés n'ont pas à effectuer la gestion et la préparation des données qui sont souvent nécessaires pour exécuter ETL, telles que la gestion de la sécurité des terminaux, la configuration des données à l'avance, le déplacement des données vers le bon référentiel ou l'une des étapes les plus compliquées telles que la configuration des magasins de données, la gestion du stockage et la configuration des serveurs.

AWS Glue élimine une grande partie des maux de tête liés à la préparation des données pour l'analyse. Connu sous le nom de «levage de charges lourdes» dans l'industrie, c'est la corvée de préparer des données structurées ou non structurées pour les requêtes. Avec AWS Glue, cela n'est pas nécessaire. L'ensemble de la découverte, du nettoyage, de l'enrichissement et du déplacement des données se produit dans les coulisses dans le cadre de l'ETL, ce qui facilite grandement la gestion des services informatiques.

Parce que le cloud est si flexible et qu'il y a tellement de magasins de données, d'applications Web et de besoins commerciaux différents pour les rapports et les analyses, AWS Glue aide à donner une certaine raison au processus d'exploration de données – sans avoir à faire le back-end travailler d'abord. Il est puissant en ce qu'il permet d'économiser du temps et des efforts, et pourtant les requêtes peuvent être reproductibles et automatisées.

Les offres de produits Hi-tech en rapport avec cet article

Continuer la lecture
Cliquez pour commenter

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

ARTICLES POPULAIRES