Gadgets
Le boost audio de Google Duo ne vous laissera pas accrocher au téléphone
"C'est bon d'entendre ta voix, tu sais que ça fait si longtemps
Si je ne reçois pas vos appels, alors tout va mal…
Votre voix à travers la ligne me donne une sensation étrange "
– Blondie, "Accrocher au téléphone"
En 1978, Debbie Harry a propulsé son groupe de new wave Blondie au sommet des charts avec un récit plaintif de désir d'entendre la voix de son petit ami de loin et insistant pour qu'il ne la laisse pas "suspendue au téléphone".
Mais la question se pose: et si c'était en 2020 et qu'elle parlait sur VOIP avec des pertes de paquets intermittentes, une gigue audio, des retards réseau et des transmissions de paquets hors séquence?
Nous ne le saurons jamais.
Mais Google a annoncé cette semaine les détails d'une nouvelle technologie pour son application vocale et vidéo populaire Duo qui contribuera à assurer des transmissions vocales plus fluides et à réduire les écarts momentanés qui gênent parfois les connexions Internet. Nous aimerions penser que Debbie approuverait.
Nous avons tous connu une gigue audio sur Internet. Elle se produit lorsqu'un ou plusieurs paquets d'instructions comprenant un flux d'instructions audio sont retardés ou mélangés dans le désordre entre l'appelant et l'auditeur. Les méthodes utilisant des tampons de paquets vocaux et l'intelligence artificielle peuvent généralement lisser une gigue de 20 millisecondes ou moins. Mais les interruptions deviennent plus visibles lorsque les paquets manquants ajoutent jusqu'à 60 millisecondes et plus.
Google affirme que pratiquement tous les appels subissent une perte de paquets de données: un cinquième de tous les appels perdent 3% de leur audio et un dixième en perdent 8%.
Cette semaine, des chercheurs de Google de la division DeepMind ont signalé qu'ils avaient commencé à utiliser un programme appelé WaveNetEQ pour résoudre ces problèmes. L'algorithme excelle à combler les lacunes sonores momentanées avec des éléments vocaux synthétisés mais au son naturel. S'appuyant sur une bibliothèque volumineuse de données vocales, WaveNetEQ comble les lacunes sonores jusqu'à 120 millisecondes. Ces échanges de bits sonores sont appelés masquages de perte de paquets (PLC).
"WaveNetEQ est un modèle génératif basé sur la technologie WaveRNN de DeepMind", a rapporté le blog AI de Google le 1er avril, "qui est formé à l'aide d'un grand corpus de données vocales pour continuer de manière réaliste de courts segments vocaux lui permettant de synthétiser pleinement la forme d'onde brute de la parole manquante."
Le programme a analysé les sons de 100 locuteurs dans 48 langues, mettant l'accent sur "les caractéristiques de la parole humaine en général, au lieu des propriétés d'une langue spécifique", explique le rapport.
De plus, l'analyse du son a été testée dans des environnements offrant une grande variété de bruits de fond pour aider à garantir une reconnaissance précise par les haut-parleurs sur les trottoirs urbains, les gares ou les cafétérias.
Tous les traitements WaveNetEQ doivent s'exécuter sur le téléphone du récepteur afin que les services de cryptage ne soient pas compromis. Mais la demande supplémentaire sur la vitesse de traitement est minime, affirme Google. WaveNetEQ est "assez rapide pour fonctionner sur un téléphone, tout en offrant une qualité audio de pointe et un API plus naturel que les autres systèmes actuellement utilisés".
Des échantillons de sons illustrant la gigue audio et l'amélioration avec WabeNetEQ sont publiés sur le rapport de Google Blog.
Google s'engage à faire plus pour protéger vos données vocales
ai.googleblog.com/2020/04/impr… ity-in-duo-with.html
© 2020 Science X Network
Citation:
Le boost audio de Google Duo ne vous laissera pas accrocher au téléphone (2020, 3 avril)
récupéré le 3 avril 2020
depuis https://techxplore.com/news/2020-04-google-duo-audio-boost-wont.html
Ce document est soumis au droit d'auteur. Hormis toute utilisation équitable aux fins d'études ou de recherches privées, aucun
une partie peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.
Sommaire