Le contexte réduit les biais raciaux dans les algorithmes de détection de discours de haine

0
34

Crédits: CC0 Public Domain

Comprendre ce qui rend quelque chose de nocif ou offensant peut être assez difficile pour les humains, sans parler des systèmes d'intelligence artificielle.

Donc, il n'est peut-être pas surprenant que les algorithmes de détection de discours de haine des médias sociaux, conçus pour arrêter la propagation de discours haineux, puissent en fait amplifier les préjugés raciaux en bloquant les tweets inoffensifs des Noirs ou d'autres membres de groupes minoritaires.

En fait, une étude précédente a montré que les modèles d'IA étaient 1,5 fois plus susceptibles de signaler les tweets écrits par les Afro-Américains comme «offensants» – en d'autres termes, un faux positif – par rapport aux autres tweets.

Pourquoi? Parce que les modèles de détection automatique actuels passent à côté de quelque chose de vital: le contexte. Plus précisément, les classificateurs de discours de haine sont hypersensibles aux identificateurs de groupe tels que «noir», «gay» ou «transgenre», qui ne sont que des indicateurs de discours de haine lorsqu'ils sont utilisés dans certains contextes.

Maintenant, une équipe de chercheurs de l'USC a créé un classificateur de discours de haine plus sensible au contexte et moins susceptible de confondre un message contenant un identifiant de groupe avec un discours de haine.

Pour y parvenir, les chercheurs ont programmé l'algorithme pour tenir compte de deux facteurs supplémentaires: le contexte dans lequel l'identifiant de groupe est utilisé et la présence ou non de caractéristiques spécifiques du discours de haine, telles que le langage déshumanisant et insultant.

"Nous voulons rapprocher la détection du discours de haine de celle qui est prête pour une application dans le monde réel", a déclaré Brendan Kennedy, docteur en informatique. étudiant et co-auteur principal de l'étude, publiée à ACL 2020, 6 juillet.

"Les modèles de détection de discours haineux" cassent "ou génèrent souvent de mauvaises prédictions lorsqu'ils sont introduits dans des données du monde réel, telles que les médias sociaux ou d'autres données textuelles en ligne, car ils sont biaisés par les données sur lesquelles ils sont formés pour associer l'apparence de termes d'identification sociale avec discours de haine. "

D'autres auteurs de l'étude, intitulée «Contextualiser les classificateurs de discours de haine avec une explication post-hoc», sont le co-auteur principal Xisen Ji, un doctorat en informatique de l'USC. étudiante et co-auteurs Aida Mostafazadeh Davani, Ph.D. étudiant en informatique, Xiang Ren, professeur adjoint d'informatique et Morteza Dehghani, qui détient des nominations conjointes en psychologie et en informatique

Pourquoi le biais de l'IA se produit

La détection du discours de haine fait partie des efforts en cours contre les propos répressifs et injurieux sur les médias sociaux, en utilisant des algorithmes complexes pour signaler les discours racistes ou violents plus rapidement et mieux que les êtres humains seuls. Mais les modèles d'apprentissage automatique sont enclins à apprendre les biais humains à partir des données de formation qui alimentent ces algorithmes.

Par exemple, les algorithmes ont du mal à déterminer si les identifiants de groupe comme "gay" ou "noir" sont utilisés de manière offensante ou préjudiciable car ils sont formés sur des ensembles de données déséquilibrés avec des taux de discours de haine inhabituellement élevés (forums suprémacistes blancs, par exemple). En conséquence, les modèles ont du mal à se généraliser aux applications du monde réel.

"Il est essentiel que les modèles n'ignorent pas les identifiants, mais les associent au bon contexte", a déclaré le professeur Xiang Ren, expert en traitement du langage naturel.

"Si vous enseignez un modèle à partir d'un ensemble de données déséquilibré, le modèle commence à détecter des modèles étranges et à bloquer les utilisateurs de manière inappropriée."

Pour tester les systèmes, les chercheurs ont accédé à un large échantillon aléatoire de texte de «Gab», un réseau social avec un taux élevé de discours de haine, et «Stormfront», un site Web suprémaciste blanc. Le texte avait été signalé à la main par les humains comme étant préjudiciable ou déshumanisant.

Ils ont ensuite mesuré les tendances du modèle de pointe, par rapport à celles de leur propre modèle, à signaler de manière inappropriée les discours de non-haine, en utilisant 12500 articles du New York Times dépourvus de discours de haine, à l'exception des citations. Les modèles de pointe ont atteint une précision de 77% pour identifier la haine par rapport à la non-haine. Le modèle USC a pu augmenter ce taux à 90%.

"Ce travail en lui-même ne rend pas la détection du discours de haine parfaite, c'est un énorme projet sur lequel beaucoup travaillent, mais il progresse progressivement", a déclaré Kennedy.

"En plus d'empêcher les publications sur les réseaux sociaux par des membres de groupes protégés d'être censurées de manière inappropriée, nous espérons que notre travail contribuera à garantir que la détection des discours de haine ne fait pas de mal inutile en renforçant les associations fallacieuses de préjugés et de déshumanisation avec les groupes sociaux."


Une étude révèle un parti pris racial dans les tweets signalés comme un discours de haine


Fourni par
Université de Californie du Sud


Citation:
Le contexte réduit les biais raciaux dans les algorithmes de détection du discours de haine (2020, 7 juillet)
récupéré le 7 juillet 2020
depuis https://techxplore.com/news/2020-07-context-racial-bias-speech-algorithms.html

Ce document est soumis au droit d'auteur. Hormis toute utilisation équitable aux fins d'études ou de recherches privées, aucune
une partie peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Les offres de produits Hi-tech en rapport avec cet article

Laisser un commentaire