Une nouvelle recherche aide à lutter contre la désinformation sur les réseaux sociaux

0
42

Anshumali Shrivastava est professeur adjoint d’informatique à l’Université Rice. (Photo par Jeff Fitlow / Université Rice) Crédit: Jeff Fitlow / Université Rice

Les chercheurs de l’Université Rice ont découvert un moyen plus efficace pour les entreprises de médias sociaux d’empêcher la désinformation de se propager en ligne à l’aide de filtres probabilistes formés à l’intelligence artificielle.

La nouvelle approche de l’analyse des médias sociaux est décrite dans une étude présentée aujourd’hui à la Conférence 2020 en ligne uniquement sur les systèmes de traitement de l’information neuronale (NeurIPS 2020) par l’informaticien de Rice Anshumali Shrivastava et l’étudiant diplômé en statistiques Zhenwei Dai. Leur méthode applique l’apprentissage automatique de manière plus intelligente pour améliorer les performances des filtres Bloom, une technique largement utilisée conçue il y a un demi-siècle.

En utilisant des bases de données de test de fausses nouvelles et de virus informatiques, Shrivastava et Dai ont montré que leur filtre de floraison adaptatif (Ada-BF) nécessitait 50% de mémoire en moins pour atteindre le même niveau de performance que les filtres de Bloom appris.

Pour expliquer leur approche de filtrage, Shrivastava et Dai ont cité certaines données de Twitter. Le géant des médias sociaux a récemment révélé que ses utilisateurs ajoutaient environ 500 millions de tweets par jour et que les tweets apparaissaient généralement en ligne une seconde après qu’un utilisateur ait frappé l’envoi.

«À peu près au moment des élections, ils recevaient environ 10 000 tweets par seconde, et avec une latence d’une seconde d’environ six tweets par milliseconde», a déclaré Shrivastava. “Si vous souhaitez appliquer un filtre qui lit chaque tweet et signale ceux contenant des informations qui sont connues pour être fausses, votre mécanisme de signalisation ne peut pas être plus lent que six millisecondes ou vous prendrez du retard et ne vous rattraperez jamais.”

Si les tweets signalés sont envoyés pour un examen manuel supplémentaire, il est également extrêmement important d’avoir un faible taux de faux positifs. En d’autres termes, vous devez minimiser le nombre de tweets authentiques signalés par erreur.

«Si votre taux de faux positifs est aussi bas que 0,1%, même dans ce cas, vous signalez par erreur 10 tweets par seconde, soit plus de 800 000 par jour, pour examen manuel», a-t-il déclaré. “C’est précisément pourquoi la plupart des approches traditionnelles basées uniquement sur l’IA sont prohibitives pour contrôler la désinformation.”

Shrivastava a déclaré que Twitter ne divulgue pas ses méthodes de filtrage des tweets, mais qu’ils utilisent un filtre Bloom, une technique à faible mémoire inventée en 1970 pour vérifier si un élément de données spécifique, comme un morceau de code informatique, fait partie d’un ensemble connu d’éléments, comme une base de données de virus informatiques connus. Un filtre Bloom est garanti pour trouver tout le code qui correspond à la base de données, mais il enregistre également des faux positifs.

“Disons que vous avez identifié un élément de désinformation et que vous voulez vous assurer qu’il ne se propage pas dans les tweets”, a déclaré Shrivastava. “Un filtre Bloom vous permet de vérifier les tweets très rapidement, en un millionième de seconde ou moins. S’il dit qu’un tweet est propre, qu’il ne correspond à rien dans votre base de données de désinformation, c’est garanti à 100%. Il n’y a donc pas chance d’accepter un tweet avec des informations erronées. Mais le filtre Bloom signalera les tweets inoffensifs une fraction du temps. “

Au cours des trois dernières années, les chercheurs ont proposé divers schémas d’utilisation de l’apprentissage automatique pour augmenter les filtres Bloom et améliorer leur efficacité. Les logiciels de reconnaissance de la langue peuvent être formés pour reconnaître et approuver la plupart des tweets, réduisant ainsi le volume à traiter avec le filtre Bloom. L’utilisation de classificateurs d’apprentissage automatique peut réduire la charge de calcul nécessaire pour filtrer les données, ce qui permet aux entreprises de traiter plus d’informations en moins de temps avec les mêmes ressources.

«Aujourd’hui, lorsque les gens utilisent des modèles d’apprentissage automatique, ils gaspillent beaucoup d’informations utiles provenant du modèle d’apprentissage automatique», a déclaré Dai.

L’approche typique consiste à définir un seuil de tolérance et à envoyer tout ce qui tombe en dessous de ce seuil au filtre Bloom. Si le seuil de confiance est de 85%, cela signifie que les informations que le classificateur juge sûres avec un niveau de confiance de 80% reçoivent le même niveau d’examen que les informations dont il n’est sûr qu’à 10%.

«Même si nous ne pouvons pas entièrement nous fier au classificateur d’apprentissage automatique, il nous fournit toujours des informations précieuses qui peuvent réduire la quantité de ressources de filtre Bloom», a déclaré Dai. «Ce que nous avons fait, c’est appliquer ces ressources de manière probabiliste. Nous donnons plus de ressources lorsque le classificateur est à seulement 10% confiant, contre un peu moins lorsqu’il est confiant à 20%, etc. Nous prenons tout le spectre du classificateur et le résolvons avec le tout le spectre des ressources pouvant être allouées à partir du filtre Bloom.

Shrivastava a déclaré que le besoin réduit de mémoire d’Ada-BF se traduit directement par une capacité supplémentaire pour les systèmes de filtrage en temps réel.

“Nous avons besoin de la moitié de l’espace”, a-t-il déclaré. “Donc, essentiellement, nous pouvons traiter deux fois plus d’informations avec la même ressource.”


Twitter dit avoir signalé 300000 tweets électoraux “ trompeurs ”


Fourni par Rice University

Citation: Mauvaises nouvelles pour les fausses nouvelles: Une nouvelle recherche aide à lutter contre la désinformation sur les réseaux sociaux (10 décembre 2020) récupéré le 11 décembre 2020 sur https://techxplore.com/news/2020-12-bad-news-fake-combat-social.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.


Les offres de produits Hi-tech en rapport avec cet article

Laisser un commentaire