Internet
Un modèle pour l’extraction automatique de contenu de sites web et d’applications
Les systèmes de gestion de contenu ou CMS sont l’outil le plus populaire pour créer du contenu sur internet. Ces dernières années, ils ont évolué pour devenir l’épine dorsale d’un écosystème de plus en plus complexe de sites web, d’applications mobiles et de plateformes. Afin de simplifier les processus, une équipe de chercheurs de l’Institut interdisciplinaire de l’Internet (IN3) de l’Universitat Oberta de Catalunya (UOC) a développé un modèle open-source pour automatiser l’extraction du contenu des CMS. Leur recherche associée est publiée dans Défis de la recherche en sciences de l’information.
Le modèle open-source est un prototype scientifique entièrement fonctionnel qui permet d’extraire la structure de données et les bibliothèques de chaque CMS et de créer un logiciel qui sert d’intermédiaire entre le contenu et ce que l’on appelle le front-end (l’application finale utilisée par l’utilisateur). Tout ce processus se fait automatiquement, ce qui en fait une solution sans erreur et évolutive, puisqu’elle peut être répétée plusieurs fois sans augmenter son coût.
L’importance des CMS dans le monde en ligne
Les systèmes de gestion de contenu (CMS) sont à l’origine de plus de 60 % des pages actuellement disponibles en ligne. Des systèmes tels que WordPress, Joomla et Drupal sont devenus populaires principalement parce qu’ils offrent une expérience utilisateur simple, ce qui a permis à toutes sortes d’utilisateurs non techniques de faire partie de la chaîne de création de contenu en ligne.
« Au cours des quatre ou cinq dernières années, ces systèmes ont fourni des informations non seulement aux navigateurs, mais aussi aux applications mobiles. Les CMS disposent d’interfaces de programmation d’applications (API), avec lesquelles les applications mobiles communiquent pour extraire du contenu », explique Joan Giner Miguélez, étudiante du programme de doctorat en technologies des réseaux et de l’information au sein du groupe Systems, Software and Models Research Lab (SOM Research Lab) et auteur principal de l’étude qui décrit le nouveau modèle. « Ces systèmes, qui sont connus sous le nom de CMS sans tête, permettent au contenu, créé de manière simple, d’être consommé ultérieurement sur différentes plateformes. »
Les CMS sont donc devenus un grand conteneur de contenu et de données utilisé par chaque application ou plateforme. Cela a simplifié beaucoup de processus mais a également ajouté des complexités en termes de développement qui sont particulièrement évidentes pour les organisations qui gèrent un grand volume de contenu et de plateformes. Il est de plus en plus courant que la création d’une nouvelle application mobile implique un travail de développement complexe, et ces tâches sont simplifiées par le modèle conçu par les chercheurs de l’IN3.
« Imaginez une grande entreprise de contenu qui gère plus d’un millier de sites web et d’applications et qui souhaite créer une nouvelle application mobile qui affiche les produits de chacun de ces sites web. S’ils veulent développer les connecteurs entre chaque site web et l’application, le travail serait immense et gourmand en ressources. Ce n’est pas évolutif », ajoute Joan Giner. « Si les API sont déjà dans un format standard, pourquoi ne pas faire aussi un extracteur de contenu qui lit et comprend les API, les représente de manière standard et génère le connecteur pour envoyer automatiquement les informations à la nouvelle application mobile ? »
Automatisation de l’extraction de contenu à partir des CMS
Le modèle développé par Giner – avec ses partenaires de recherche Abel Gómez et Jordi Cabot, chercheur à l’ICREA et responsable du SOM Research Lab – simplifie grandement le processus de développement d’une nouvelle application et permet de réaliser des économies importantes en termes de temps et de ressources. Le processus, qui a été développé grâce au financement des projets européens AIDOaRT et TRANSACT, vise à extraire et à représenter le modèle CMS de manière claire et automatique afin de faciliter son utilisation comme source d’information. En outre, la proposition technologique des chercheurs de l’IN3 vise à générer le code qui servira de lien entre le CMS et le développement de nouvelles applications.
Pour ce faire, la première étape consiste à donner à l’outil l’adresse et les informations de connexion au CMS. Une fois connecté, il lit l’API, la comprend et utilise un processus d’ingénierie inverse pour représenter la structure et les bibliothèques de contenu du CMS de manière standard. Sur cette base, il génère automatiquement le code du connecteur par lequel le CMS et la nouvelle application mobile en cours de développement communiqueront.
« C’est un moyen de standardiser le processus entre le CMS et l’application finale », a souligné Joan Giner. « Son plus grand avantage est, en fait, la normalisation elle-même. Nous parlons d’un processus qui se répète fréquemment dans les organisations qui gèrent des contenus ; un processus qui, à chaque fois qu’il est réalisé, implique la mise en place d’une équipe de développement spécifique qui nécessite de dépenser une série de ressources et qui, en outre, peut générer des erreurs. Grâce à l’automatisation, tout est simplifié et devient plus évolutif. »
En tant que tel, ce modèle d’automatisation des extractions de CMS se concentre sur l’évolutivité, car une fois le plan et le code du CMS créés, ceux-ci peuvent être réutilisés autant de fois que nécessaire et intégrés dans de futurs projets de développement sans coût supplémentaire.
Les chercheurs soulignent également que c’est un modèle automatique qui crée des bibliothèques de contenu sans erreur, alors que, si le travail est effectué manuellement, les développeurs peuvent toujours faire une erreur dans une ligne de code.
« Les systèmes de gestion de contenu sont une source majeure de contenu sur internet. Nous rendons possible la normalisation de l’accès aux CMS, tout comme l’accès aux bases de données a été normalisé par le passé », a conclu Joan Giner. « En allant de l’avant, ce modèle pourrait même être utilisé pour transformer les CMS en une nouvelle source de données pour l’entraînement des systèmes d’intelligence artificielle. »
Les non-programmeurs construisent de plus en plus de logiciels dans le monde : Un informaticien explique le « no-code ».
Joan Giner-Miguelez et al, Enabling Content Management Systems as an Information Source in Model-Driven Projects, Défis de la recherche en sciences de l’information (2022). DOI: 10.1007/978-3-031-05760-1_30
Fourni par
Universitat Oberta de Catalunya
Citation:
Un modèle pour l’extraction automatique de contenu de sites web et d’applications (2022, 17 juin)
récupéré le 19 juin 2022
à partir de https://techxplore.com/news/2022-06-automatic-content-webs-apps.html
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune
partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.