Répète? L’IA fournit le dernier mot dans un son plus clair

0
49

Crédit: Unsplash / CC0 Public Domain

Si vous avez écouté plus de podcasts pendant que vous restiez à la maison cette année, vous avez peut-être remarqué un effet secondaire de la hausse des conversations virtuelles: une baisse de la qualité audio. Les entretiens menés par téléphone ou par chat vidéo incluent souvent des bruits de fond, des réverbérations et des distorsions.

Désormais, une nouvelle méthode développée en partie par des chercheurs de l’Université de Princeton pourrait améliorer l’expérience d’écoute à l’ère COVID et au-delà. En utilisant une approche d’intelligence artificielle (IA) connue sous le nom d’apprentissage profond, la technique peut transformer des enregistrements de faible qualité de la parole humaine, en se rapprochant de la netteté et de la clarté d’une voix enregistrée en studio.

Alors que d’autres méthodes basées sur l’IA pour améliorer les enregistrements vocaux ont généralement abordé un seul aspect de la qualité audio, comme le filtrage du bruit de fond ou la suppression de la réverbération, cette méthode est davantage un outil tout-en-un. En fin de compte, les chercheurs espèrent appliquer leur cadre pour permettre une amélioration de la parole en temps réel entièrement automatisée.

“Les approches précédentes se sont principalement concentrées sur l’amélioration de l’intelligibilité de la parole, mais celles-ci peuvent rendre l’expérience d’écoute plus plate, de sorte que la qualité qui en résulte n’est pas très bonne pour l’écoute”, a déclaré Jiaqi Su, étudiant diplômé en informatique et auteur principal d’un article. décrivant la méthode, que les chercheurs appellent HiFi-GAN.

HiFi-GAN utilise des réseaux de neurones artificiels, des outils clés du deep learning qui imitent l’architecture interconnectée des neurones biologiques. Dans ce système, deux réseaux distincts se font concurrence pour améliorer la qualité audio. Un réseau, appelé générateur, produit des enregistrements nettoyés de la parole. L’autre réseau, appelé discriminateur, analyse les enregistrements pour tenter de déterminer s’il s’agit d’enregistrements réels de qualité studio ou d’audio qui a été nettoyé par le générateur. La concurrence entre ces réseaux antagonistes génératifs (GAN) améliore la capacité de la méthode à produire un son clair.

Les réseaux générateurs et discriminateurs s’engagent dans une sorte de course aux armements. «Le travail du générateur est d’essayer de tromper le discriminateur», a déclaré le co-auteur Adam Finkelstein, professeur d’informatique. “Les deux montent en flèche, chacun devenant de plus en plus efficace pendant l’entraînement. Lorsque ce processus est terminé, vous pouvez jeter le discriminateur et ce que vous avez est un générateur génial.”

Pour évaluer les enregistrements générés par HiFi-GAN, les chercheurs ont utilisé plusieurs mesures objectives de la qualité audio. Ils se sont également tournés vers la plateforme de crowdsourcing Amazon Mechanical Turk pour recueillir des jugements subjectifs d’auditeurs humains, qui ont évalué les résultats de HiFi-GAN et ceux d’autres algorithmes d’amélioration de la qualité audio. Dans 28 000 évaluations d’auditeurs des enregistrements sur Amazon Mechanical Turk, HiFi-GAN a obtenu un score plus élevé que cinq autres méthodes d’amélioration de la qualité audio.

“Le problème que nous observons couramment dans les expériences est que les mesures objectives ne sont pas entièrement corrélées avec la perception humaine, il est donc très possible que votre méthode obtienne un score plus élevé, mais elle produit en fait une expérience d’écoute pire. C’est pourquoi nous effectuons également des évaluations subjectives”, a déclaré Su.

Dans le cadre de travaux connexes, le groupe de Finkelstein et d’autres ont développé une métrique objective pour détecter et quantifier les différences subtiles dans les enregistrements audio qui sont perceptibles à l’oreille humaine mais qui ont été difficiles à gérer pour les algorithmes d’IA. La métrique, qui est formée sur environ 55000 jugements humains collectés sur Amazon Mechanical Turk, pourrait améliorer les performances des améliorateurs de qualité audio tels que HiFi-GAN, et aider plus largement à l’évaluation des méthodes d’apprentissage en profondeur pour le traitement des enregistrements audio.

Crédit: Université de Princeton

Le document propose une nouvelle métrique pour les outils d’apprentissage automatique qui évaluent la qualité audio ou comparent les enregistrements audio. La méthode s’appuie sur des approches existantes d’apprentissage contradictoire dans lesquelles un générateur et un réseau de discriminateurs se font concurrence pour améliorer les résultats d’un algorithme. La métrique peut déterminer, par exemple, à quel point un enregistrement audio généré par l’IA est proche d’un enregistrement de référence de qualité studio.

“Nous voulions trouver une métrique perceptive à laquelle les humains seraient liés”, a déclaré Pranay Manocha, étudiant diplômé en informatique et auteur principal de la recherche. “Par exemple, si nous lisons deux enregistrements et demandons ensuite s’ils sont exactement identiques ou différents, notre métrique est capable de donner une réponse qui est corrélée avec les jugements que les humains feraient.”

Bien qu’il existe de nombreuses mesures de ce type dans le traitement audio, la méthode les améliore en détectant de petites différences, que les chercheurs appellent “juste perceptibles”, telles que des changements subtils dans les harmoniques de haute fréquence qui ne sont pas les principaux composants de la parole.

“Le deep learning a déjà eu un impact énorme sur le traitement audio, et nous nous attendons à ce qu’il devienne encore plus profond” dans la décennie à venir, a déclaré Finkelstein, “mais il y a un gros problème, qui est un peu ésotérique: pour que la machine apprenne , il a besoin de savoir à quel point il va bien… il a besoin de quelque chose qui s’appelle une fonction de perte. “

Pour concevoir une bonne fonction de perte, “nous avons besoin d’une méthode entièrement automatique pour déterminer si les humains diraient que deux clips audio sonnent de manière similaire”, a déclaré Finkelstein. “Il n’est pas pratique de poser cette question aux humains” tout en entraînant un réseau de neurones “, car cela impliquerait de poser des milliards de questions aux humains pendant que l’algorithme recherche une bonne solution. Nous développons donc une méthode automatique pour prédire comment les humains y répondraient. question.”

Su et Manocha ont présenté des articles décrivant ces projets à INTERSPEECH, une conférence internationale axée sur le traitement de la parole et les applications, qui s’est tenue entièrement virtuellement en octobre.

Le HiFi-GAN et la métrique de différence juste perceptible offrent des approches générales qui peuvent être utilisées pour une variété de tâches de traitement audio. Les chercheurs adaptent maintenant leurs méthodes à l’amélioration de la parole en temps réel, qui pourrait potentiellement être utilisée lors d’une conversation ou d’un webinaire Zoom.

L’équipe ajoute également une capacité d’extension de bande passante à HiFi-GAN. Cela recréera l’expérience des auditeurs du «sentiment de présence» à partir d’enregistrements réalisés à des fréquences d’échantillonnage élevées, qui est souvent absente des enregistrements audio de qualité grand public et des conférences téléphoniques en ligne, a déclaré Finkelstein.

Su, Finkelstein et d’autres étaient co-auteurs de l’article “HiFi-GAN: Denoising et déréverbération haute fidélité basés sur les fonctionnalités de parole en profondeur dans les réseaux opposés”. Les coauteurs de l’article “Une métrique audio perceptuelle différenciable tirée de différences remarquables” incluaient Manocha et Finkelstein.


Google s’engage à faire plus pour protéger vos données vocales


Plus d’information:
HiFi-GAN: Denoising et déréverbération haute fidélité basés sur les fonctionnalités vocales profondes dans les réseaux adverses. pixl.cs.princeton.edu/pubs/Su_2020_HiFi/

Une métrique audio perceptuelle différenciable tirée de différences remarquables. pixl.cs.princeton.edu/pubs/Manocha_2020_ADP/

Fourni par l’Université de Princeton

Citation: Répète? L’IA fournit le dernier mot dans un son plus clair (2020, 18 décembre) récupéré le 18 décembre 2020 sur https://techxplore.com/news/2020-12-ai-latest-word-clearer-audio.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.


Les offres de produits Hi-tech en rapport avec cet article

Laisser un commentaire