Gadgets
Imiter le cerveau pour créer des assistants virtuels de type humain

Figure 1. Une représentation de l’algorithme utilisé pour imiter la parole humaine. Légende : Pipeline de traitement de l’algorithme de poursuite de l’appariement perceptif utilisé pour dériver les représentations clairsemées auditives des signaux de parole. Les cinq principales étapes de traitement sont illustrées par des blocs gris et des flèches pleines. La première étape consiste à décomposer le signal, la deuxième à appliquer un effet de masque, la troisième à trouver le maximum, la quatrième à mettre à jour et la dernière à s’arrêter. Les informations sur le noyau sélectionné après l’étape de recherche du maximum sont utilisées pour créer la représentation auditive clairsemée, le signal resynthétisé et le signal résiduel. Crédit : Masashi Unoki du JAIST
La parole est plus qu’une simple forme de communication. La voix d’une personne transmet des émotions et une personnalité et constitue un trait unique que nous pouvons reconnaître. L’utilisation de la parole comme principal moyen de communication est une raison essentielle du développement des assistants vocaux dans les appareils intelligents et la technologie. En général, les assistants virtuels analysent la parole et répondent aux requêtes en convertissant les signaux vocaux reçus en un modèle qu’ils peuvent comprendre et traiter pour générer une réponse valide. Cependant, ils ont souvent du mal à capturer et à intégrer les complexités de la parole humaine et finissent par avoir un son très peu naturel.
Dans une étude publiée dans la revue Accès IEEELe professeur Masashi Unoki du Japan Advanced Institute of Science and Technology (JAIST) et Dung Kim Tran, étudiant en doctorat au JAIST, ont mis au point un système capable de saisir les informations contenues dans les signaux vocaux de la même manière que les humains perçoivent la parole.
« Chez l’homme, la périphérie auditive convertit les informations contenues dans les signaux vocaux d’entrée en modèles d’activité neuronale (NAP) que le cerveau peut identifier. Pour émuler cette fonction, nous avons utilisé un algorithme de poursuite d’appariement pour obtenir des représentations éparses des signaux vocaux, ou des représentations de signaux avec le minimum possible de coefficients significatifs », explique le professeur Unoki. « Nous avons ensuite utilisé des principes psychoacoustiques, tels que l’échelle de largeur de bande rectangulaire équivalente, la fonction gammachirp et les effets de masquage, pour nous assurer que les représentations auditives éparses sont similaires à celles des PAN. »
Pour tester l’efficacité de leur modèle à comprendre les commandes vocales et à générer une réponse compréhensible et naturelle, le duo a réalisé des expériences pour comparer la qualité de reconstruction du signal et les structures perceptives des représentations auditives par rapport aux méthodes conventionnelles. « L’efficacité d’une représentation auditive peut être évaluée en fonction de trois aspects : la qualité des signaux vocaux resynthétisés, le nombre d’éléments non nuls et la capacité à représenter les structures perceptuelles des signaux vocaux », explique le professeur Unoki.
Pour évaluer la qualité des signaux de parole resynthétisés, le duo a reconstruit 630 échantillons de parole prononcés par différents locuteurs. Les signaux resynthétisés ont ensuite été évalués à l’aide des scores PEMO-Q et PESQ, des mesures objectives de la qualité sonore. Ils ont constaté que les signaux resynthétisés étaient comparables aux signaux originaux. En outre, ils ont réalisé des représentations auditives de certaines phrases prononcées par 6 locuteurs.
Le duo a également testé le modèle sur sa capacité à capturer les structures vocales avec précision en utilisant une expérience de correspondance de motifs pour déterminer si les représentations auditives des phrases pouvaient correspondre à des énoncés ou des requêtes parlés par les mêmes locuteurs.
« Nos résultats ont montré que les représentations auditives éparses produites par notre méthode permettent d’obtenir des signaux resynthétisés de haute qualité avec seulement 1 066 coefficients par seconde. En outre, la méthode proposée fournit également la plus grande précision de correspondance dans une expérience de correspondance de motifs », déclare le professeur Unoki.
Des smartphones aux téléviseurs intelligents et même aux voitures intelligentes, le rôle des assistants vocaux devient de plus en plus indispensable dans notre vie quotidienne. La qualité et l’utilisation continue de ces services dépendront de leur capacité à comprendre nos accents et notre prononciation et à répondre d’une manière que nous trouvons naturelle. Le modèle développé dans cette étude pourrait contribuer à conférer des qualités humaines à nos assistants vocaux, rendant nos interactions non seulement plus pratiques mais aussi psychologiquement satisfaisantes.
Une étude explique le rôle de la transmission de la parole par l’os dans la production de la parole et l’audition.
Dung Kim Tran et al, Matching Pursuit and Sparse Coding for Auditory Representation, Accès IEEE (2021). DOI: 10.1109/ACCESS.2021.3135011
Fourni par
Institut japonais des sciences et technologies avancées
Citation:
Imiter le cerveau pour réaliser des assistants virtuels de type humain (2022, 3 février)
récupéré le 4 février 2022
à partir de https://techxplore.com/news/2022-02-mimicking-brain-human-like-virtual.html
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune
partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.
-
Test et Avis Audio8 heures ago
Des chercheurs du MIT ont créé des haut-parleurs « fins comme du papier peint » – Hitech-world
-
Test et Avis Accessoires6 heures ago
La dernière souris de Logitech est colorée et offre une option pour gauchers – Hitech-world
-
Test et Avis Streaming6 heures ago
Alias Grace » est un mystère fascinant – Hitech-world
-
Test et Avis Gaming6 heures ago
Le mini-frigo Xbox de Microsoft est maintenant disponible pour 100 $ – Hitech-world
-
Test et Avis Ordinateurs6 heures ago
Ce kit de phishing pour Chrome est effrayant à souhait – Hitech-world
-
Gadgets11 heures ago
Des bras robotiques virtuels surnuméraires peuvent avoir l’impression de faire partie du corps
-
Internet11 heures ago
Profitez d’une réduction massive de 80 % sur Kaspersky Internet Security.
-
Ordinateurs et informatique11 heures ago
Qu’est-ce que Direct X ?
-
Smartphones et Tablettes11 heures ago
La Corée va avoir une jolie collaboration entre Samsung et Starbucks, et nous la voulons aussi.