Changer les règles de l'informatique pourrait alléger l'impact du Big Data sur Internet

0
6

Crédits: CC0 Public Domain

À une époque où nous comptons sur Internet à un degré sans précédent dans notre vie quotidienne, une équipe de chercheurs UM dirigée par Mosharaf Chowdhury et Harsha Madhyastha a trouvé un moyen pour les entreprises technologiques, les banques et les systèmes de santé de tirer plus de capacité de notre infrastructure existante.

Un changement dans la conception de l'outil logiciel Big Data Apache Spark pourrait permettre aux plus grands utilisateurs mondiaux de puissance de calcul d'accomplir des tâches massives jusqu'à 16 fois plus rapidement tout en allégeant leur charge sur Internet. Chowdhury est professeur adjoint et Madhyastha est professeur agrégé, à la fois en informatique et en génie. La modification, appelée Sol, est maintenant disponible en téléchargement sur GitHub.

Spark est un cadre électronique open source qui sert de gestionnaire de tâches, coordonnant de vastes réseaux d'ordinateurs individuels pour travailler ensemble comme une seule machine sur de grandes tâches informatiques. L'un des outils du genre les plus utilisés au monde, il est utilisé par toutes les grandes entreprises technologiques ainsi que par les banques, les sociétés de télécommunications, les gouvernements et bien d'autres.

Lorsque Spark a été construit il y a une décennie, la plupart de ces travaux ont eu lieu dans de grands centres de données, où de vastes banques de machines étaient situées sur un seul site. Mais aujourd'hui, il est de plus en plus utilisé pour connecter des machines réparties dans le monde entier et connectées par Internet.

Chowdhury a aidé à construire Spark pendant son séjour en tant qu'étudiant diplômé à l'Université de Californie à Berkeley. Il explique qu'il répartit le travail sur des machines individuelles à l'aide d'un composant appelé moteur d'exécution. Il a été conçu principalement pour les grands centres de données, où des groupes de machines sur le même réseau local pouvaient communiquer rapidement entre eux. Mais c'est moins efficace lorsque les machines sont à des milliers de kilomètres l'une de l'autre, reliées par le tuyau relativement étroit d'Internet.

"Le moteur d'exécution existant de Spark prend des décisions sur où envoyer du travail à la toute dernière minute – ce n'est qu'après que le processeur signale qu'il est prêt pour plus de travail qu'il envoie une nouvelle tâche", a déclaré Chowdhury. «Cette approche maximise la flexibilité et est logique lorsqu'une tâche est hébergée dans un seul centre de données. Mais cette communication prend beaucoup plus de temps entre les machines connectées par Internet. L'approche de dernière minute laisse souvent les processeurs sous-utilisés, ce qui signifie qu'ils sont assis en attendant le travail. "

Ainsi, Chowdhury et Madhyastha, en collaboration avec les assistants de recherche des étudiants diplômés Fan Lai et Jie You ainsi que l'étudiant de premier cycle Xiangfeng Zhu, ont écrit un nouveau moteur d'exécution appelé Sol. Sol adopte une approche plus proactive; au lieu d'attendre que les processeurs signalent qu'ils sont prêts pour un nouveau travail, il devine ceux qui seront les prochains en ligne et leur envoie activement de nouvelles tâches. Il demande également aux machines de traiter les données localement lorsque cela est possible au lieu de les déplacer constamment entre les machines.

Cela signifie moins de brassage des données et des commandes entre les machines, réduisant la charge sur Internet et accélérant le traitement des données. L'équipe de Chowdhury a constaté qu'elle accélérait considérablement le calcul, rendant les tâches courantes quatre à 16 fois plus rapides.

Bien que la version actuellement disponible soit une version de recherche du logiciel plutôt qu'un produit plus perfectionné, Chowdhury dit que le publier sous sa forme actuelle est un moyen de stimuler la recherche à un moment où la vitesse est essentielle.

"Fan Lai se rend déjà disponible pour aider ceux qui veulent l'essayer", a-t-il déclaré. "Nous faisons tout notre possible pour nous déplacer rapidement."

Le document est intitulé «Sol: calcul distribué rapide sur des réseaux lents».


La «désagrégation de la mémoire» pour l'informatique à grande échelle rendue pratique


Plus d'information:
Sol: Calcul distribué rapide sur des réseaux lents. www.usenix.org/system/files/nsdi20-paper-lai.pdf

Fourni par
                                                                                                    Université du Michigan


Citation:
                                                 Changer les règles de l'informatique pourrait alléger l'impact du Big Data sur Internet (2020, 25 mars)
                                                 récupéré le 25 mars 2020
                                                 depuis https://techxplore.com/news/2020-03-big-impact-internet.html

Ce document est soumis au droit d'auteur. Hormis toute utilisation équitable aux fins d'études ou de recherches privées, aucun
                                            une partie peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Les offres de produits Hi-tech en rapport avec cet article

Laisser un commentaire