Un modèle pour prédire la taille et la forme des fils de commentaires en ligne

0
28

Exemple de processus de branchement Hawkes. Le nœud rouge (extrême gauche) représente une publication sur les réseaux sociaux. Les nœuds verts et bleus représentent respectivement les événements ‘immigrant’ et ‘progéniture’. Crédit: Krohn & Weninger, adapté avec l'autorisation des travaux de Medvedev et al.

Sur les plates-formes de médias sociaux telles que Reddit et Twitter, les utilisateurs peuvent exprimer leurs opinions et participer à des discussions sur divers sujets. Cela se fait généralement dans les fils de commentaires, qui permettent aux utilisateurs de commenter des publications existantes.

Un fil de commentaire est essentiellement une conversation entre différents utilisateurs en ligne sous la forme de commentaires. En informatique, les fils de commentaires sont souvent considérés comme des "arbres", avec des nœuds représentant la publication d'origine et les commentaires ultérieurs, et des arêtes dirigées représentant des relations de "réponse à".

Deux chercheurs de l’Université de Notre-Dame ont récemment mis au point un modèle permettant de prévoir la taille et la forme des fils de commentaires en ligne lorsqu’ils sont visualisés sous forme d’arbres. Ils ont appelé ce modèle, introduit dans un article pré-publié sur arXiv, le modèle de prédiction de threads de commentaires (CTPM).

"Notre principal objectif de recherche est de prédire la taille et la forme d'un fil de commentaires sur des sites de médias sociaux", a déclaré Tim Weninger, l'un des chercheurs ayant mené l'étude à TechXplore. "Ces sites permettent aux utilisateurs de publier des informations, des images ou d'autres contenus. Ensuite, d'autres utilisateurs aiment, partagent ou commentent l'article. Nous nous intéressons principalement aux fils de commentaires, dans lesquels un utilisateur peut commenter l'article ou répondre à des commentaires comme sur Reddit. et Twitter (mais pas Facebook ou YouTube). "

L’étude réalisée par Weninger et son collègue Rachel Krohn a été financée par un programme de la US Advanced Research Project Agency (DARPA), qui porte spécifiquement sur la simulation sociale. L'une des questions posées par ce programme est de savoir s'il est possible de simuler une activité de média social.

Des études antérieures suggèrent que les premières heures de la vie d'un article sont d'une importance vitale pour prédire sa popularité future. En fait, les publications qui retiennent le plus l'attention des lecteurs et qui sont immédiatement commentées par les utilisateurs suscitent généralement de nouvelles discussions en ligne à l'avenir. Par contre, les messages qui, au départ, ne retiennent pas beaucoup l’attention tendent également à attirer moins l’attention à l’avenir.

La plupart des techniques existantes conçues pour prédire la taille et la forme des fils de commentaires fonctionnent en observant les premiers commentaires ajoutés à un article, puis en créant un modèle prédictif. Toutefois, comme la majorité des threads de commentaires sont relativement petits, attendre que de nouvelles données soient générées peut nuire à l'objectif général de la tâche de prédiction.

Le programme DARPA finançant l’étude a donc spécifiquement demandé aux chercheurs d’explorer s’ils pouvaient prédire la popularité d’un message, y compris le nombre de commentaires qu’il obtiendrait ultérieurement, en se basant uniquement sur son titre. Dans cet objectif, l’équipe a mis au point un modèle qui analyse les mots du titre d’un message Reddit, ainsi que l’utilisateur qui publie et le subreddit auquel il a été soumis. Ces variables sont utilisées pour créer un "processus de Hawkes", un modèle statistique utilisé pour représenter des points mathématiques dans l'espace.

"Nous utilisons un processus Hawkes pour simuler la façon dont les gens voient le message, lisent un commentaire, puis décidons de répondre à chaque commentaire", a déclaré Weninger. "Le modèle n’est pas parfait et ne simule pas réellement le contenu des commentaires (c’est-à-dire que nous ne devinons pas ce que le commentaire dit réellement, qu’il y ait un commentaire ou non), cependant, en moyenne, nous faisons assez bien. prédire quels commentaires seront populaires et lesquels ne le seront pas uniquement en fonction du titre, de l’auteur et du subreddit d’un message. "

Weninger et ses collègues ont évalué le modèle CTPM sur des milliers de discussions d'utilisateurs réelles issues de Reddit, en comparant son efficacité à prévoir la taille et la forme des fils de commentaires avec ceux d'autres techniques. Remarquablement, leur modèle a surperformé de manière significative tous les modèles existants et les lignes de base auxquelles il était comparé.

"Pour moi, la contribution la plus significative de ce travail est la capacité de notre modèle à prédire la taille et la forme des conversations en ligne", a déclaré Weninger. "Cela est important pour les organismes américains chargés de l'application de la loi et de la défense car pouvoir prédire l'avenir dans le cyberespace leur permet de se préparer efficacement à la défense contre les cyberattaques et autres événements qui se déplacent fréquemment du monde virtuel au monde physique".

À l'avenir, le modèle proposé par Weninger et ses collègues pourrait être utilisé pour prédire la popularité des publications sur Twitter ou Reddit basées uniquement sur leur titre. L’équipe envisage maintenant de poursuivre ses recherches sur la manière dont les humains consomment et conservent les informations en ligne, y compris leurs interactions avec les publications des autres (p. Ex. J'aime, les partages, les retweets, etc.)

"Les préférences, les partages, les votes positifs et les retweets fournis par les utilisateurs sont la chose la plus importante pour les entreprises de médias sociaux, car ils indiquent quel contenu promouvoir et quel contenu peut être du spam ou de mauvaise qualité", a déclaré Weninger. "Nous étudions ces processus et la manière dont ils peuvent être corrompus par des individus ou des groupes aux intentions malveillantes. Nos travaux futurs dans ce domaine porteront sur des manipulations de contenu social (altérations d'images, photoshops, deepfakes, etc.), comme nous pouvons en apprendre plus beaucoup sur les gens et leur culture en observant comment ils modifient les images dans les médias sociaux. "


Vos votes (médias sociaux) comptent


Plus d'information:
Modélisation des fils de commentaires en ligne depuis leur début. arXiv: 1910.08575 [cs.SI]. arxiv.org/abs/1910.08575

Modélisation de la structure et prévision de la dynamique des discussions dans les forums en ligne. DOI: 10.1093 / comnet / cny010. https://academic.oup.com/comnet/article-abstract/7/1/67/4991998

© 2019 Science X Network

Citation:
                                                 Un modèle permettant de prévoir la taille et la forme des fils de commentaires en ligne (5 novembre 2019)
                                                 récupéré le 10 novembre 2019
                                                 à partir de https://techxplore.com/news/2019-11-size-online-comment-threads.html

Ce document est soumis au droit d'auteur. Mis à part toute utilisation équitable à des fins d’étude ou de recherche privée, aucun
                                            partie peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Les offres de produits Hi-tech en rapport avec cet article

Laisser un commentaire