Connectez-vous avec nous

Gadgets

Imiter le cerveau pour créer des assistants virtuels de type humain

Figure 1. Une représentation de l’algorithme utilisé pour imiter la parole humaine. Légende : Pipeline de traitement de l’algorithme de poursuite de l’appariement perceptif utilisé pour dériver les représentations clairsemées auditives des signaux de parole. Les cinq principales étapes de traitement sont illustrées par des blocs gris et des flèches pleines. La première étape consiste à décomposer le signal, la deuxième à appliquer un effet de masque, la troisième à trouver le maximum, la quatrième à mettre à jour et la dernière à s’arrêter. Les informations sur le noyau sélectionné après l’étape de recherche du maximum sont utilisées pour créer la représentation auditive clairsemée, le signal resynthétisé et le signal résiduel. Crédit : Masashi Unoki du JAIST

La parole est plus qu’une simple forme de communication. La voix d’une personne transmet des émotions et une personnalité et constitue un trait unique que nous pouvons reconnaître. L’utilisation de la parole comme principal moyen de communication est une raison essentielle du développement des assistants vocaux dans les appareils intelligents et la technologie. En général, les assistants virtuels analysent la parole et répondent aux requêtes en convertissant les signaux vocaux reçus en un modèle qu’ils peuvent comprendre et traiter pour générer une réponse valide. Cependant, ils ont souvent du mal à capturer et à intégrer les complexités de la parole humaine et finissent par avoir un son très peu naturel.

Dans une étude publiée dans la revue Accès IEEELe professeur Masashi Unoki du Japan Advanced Institute of Science and Technology (JAIST) et Dung Kim Tran, étudiant en doctorat au JAIST, ont mis au point un système capable de saisir les informations contenues dans les signaux vocaux de la même manière que les humains perçoivent la parole.

« Chez l’homme, la périphérie auditive convertit les informations contenues dans les signaux vocaux d’entrée en modèles d’activité neuronale (NAP) que le cerveau peut identifier. Pour émuler cette fonction, nous avons utilisé un algorithme de poursuite d’appariement pour obtenir des représentations éparses des signaux vocaux, ou des représentations de signaux avec le minimum possible de coefficients significatifs », explique le professeur Unoki. « Nous avons ensuite utilisé des principes psychoacoustiques, tels que l’échelle de largeur de bande rectangulaire équivalente, la fonction gammachirp et les effets de masquage, pour nous assurer que les représentations auditives éparses sont similaires à celles des PAN. »

Pour tester l’efficacité de leur modèle à comprendre les commandes vocales et à générer une réponse compréhensible et naturelle, le duo a réalisé des expériences pour comparer la qualité de reconstruction du signal et les structures perceptives des représentations auditives par rapport aux méthodes conventionnelles. « L’efficacité d’une représentation auditive peut être évaluée en fonction de trois aspects : la qualité des signaux vocaux resynthétisés, le nombre d’éléments non nuls et la capacité à représenter les structures perceptuelles des signaux vocaux », explique le professeur Unoki.

Pour évaluer la qualité des signaux de parole resynthétisés, le duo a reconstruit 630 échantillons de parole prononcés par différents locuteurs. Les signaux resynthétisés ont ensuite été évalués à l’aide des scores PEMO-Q et PESQ, des mesures objectives de la qualité sonore. Ils ont constaté que les signaux resynthétisés étaient comparables aux signaux originaux. En outre, ils ont réalisé des représentations auditives de certaines phrases prononcées par 6 locuteurs.

Le duo a également testé le modèle sur sa capacité à capturer les structures vocales avec précision en utilisant une expérience de correspondance de motifs pour déterminer si les représentations auditives des phrases pouvaient correspondre à des énoncés ou des requêtes parlés par les mêmes locuteurs.

« Nos résultats ont montré que les représentations auditives éparses produites par notre méthode permettent d’obtenir des signaux resynthétisés de haute qualité avec seulement 1 066 coefficients par seconde. En outre, la méthode proposée fournit également la plus grande précision de correspondance dans une expérience de correspondance de motifs », déclare le professeur Unoki.

Des smartphones aux téléviseurs intelligents et même aux voitures intelligentes, le rôle des assistants vocaux devient de plus en plus indispensable dans notre vie quotidienne. La qualité et l’utilisation continue de ces services dépendront de leur capacité à comprendre nos accents et notre prononciation et à répondre d’une manière que nous trouvons naturelle. Le modèle développé dans cette étude pourrait contribuer à conférer des qualités humaines à nos assistants vocaux, rendant nos interactions non seulement plus pratiques mais aussi psychologiquement satisfaisantes.


Une étude explique le rôle de la transmission de la parole par l’os dans la production de la parole et l’audition.


Plus d’informations :
Dung Kim Tran et al, Matching Pursuit and Sparse Coding for Auditory Representation, Accès IEEE (2021). DOI: 10.1109/ACCESS.2021.3135011

Fourni par
Institut japonais des sciences et technologies avancées

Citation:
Imiter le cerveau pour réaliser des assistants virtuels de type humain (2022, 3 février)
récupéré le 4 février 2022
à partir de https://techxplore.com/news/2022-02-mimicking-brain-human-like-virtual.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune
partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.


Continuer la lecture
Cliquez pour commenter

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée.

Test et Avis Ordinateurs6 heures ago

Ce kit de phishing pour Chrome est effrayant à souhait – Hitech-world

Test et Avis Gaming6 heures ago

Le mini-frigo Xbox de Microsoft est maintenant disponible pour 100 $ – Hitech-world

Test et Avis Streaming6 heures ago

Alias Grace » est un mystère fascinant – Hitech-world

Test et Avis Accessoires6 heures ago

La dernière souris de Logitech est colorée et offre une option pour gauchers – Hitech-world

Test et Avis Audio8 heures ago

Des chercheurs du MIT ont créé des haut-parleurs « fins comme du papier peint » – Hitech-world

Smartphones et Tablettes11 heures ago

La Corée va avoir une jolie collaboration entre Samsung et Starbucks, et nous la voulons aussi.

Ordinateurs et informatique11 heures ago

Qu’est-ce que Direct X ?

Internet11 heures ago

Profitez d’une réduction massive de 80 % sur Kaspersky Internet Security.

Gadgets11 heures ago

Des bras robotiques virtuels surnuméraires peuvent avoir l’impression de faire partie du corps

Tests et Avis Smartphones1 jour ago

Les appareils pliables de Samsung pourraient bénéficier d’une mise à jour majeure cette année, grâce à Google – Hitech-world

Test et Avis Ordinateurs1 jour ago

L’écran Studio d’Apple possède un cordon d’alimentation exclusif que vous ne pouvez presque pas retirer – Hitech-world

Test et Avis Wearables1 jour ago

Le nouvel écran OLED extensible de Samsung pourrait être un atout pour les technologies de santé et de fitness – Hitech-world

Test et Avis Gaming1 jour ago

On ne fait plus de jeux comme avant, alors procurez-vous un émulateur – Hitech-world

Test et Avis Streaming1 jour ago

Pourquoi votre prochain routeur devrait être le Wi-Fi 6E – Hitech-world

Smartphones et Tablettes1 jour ago

La série iQOO 10 de Vivo sera le premier smartphone doté d’une densité de 9000+.

Tests et Avis Smartphones3 semaines ago

Comment faire en sorte que votre Pixel 6 vibre plus fort pour les appels et les notifications – Hitech-world

Test et Avis Streaming3 semaines ago

La trilogie originale de « Spider-Man » est gratuite sur Plex jusqu’en février – Hitech-world

Internet2 semaines ago

Spotify prêt à s’attaquer à Amazon dans le domaine des livres audio

Test et Avis Wearables2 semaines ago

Le casque AR d’Apple s’appuiera sur l’iPhone pour exécuter des logiciels exigeants – Hitech-world

Gadgets3 semaines ago

Apple vient d’exclure de watchOS 9 l’un de ses produits les plus populaires.

Ordinateurs et informatique3 semaines ago

Critique du Dell P3221D | Trusted Reviews

Gadgets2 semaines ago

Des chercheurs démontrent deux méthodes de sécurité qui protègent efficacement les convertisseurs analogique-numérique contre de puissantes attaques.

Gadgets1 semaine ago

Comment désapparier une Apple Watch

Test et Avis Audio4 semaines ago

L’application Android de Spotify vient d’acquérir la fonctionnalité que je souhaite le plus – Hitech-world

Test et Avis Wearables3 semaines ago

Amazon présente le nouveau tracker de santé Halo View et d’autres outils de fitness – Hitech-world

Tests et Avis Smartphones6 jours ago

L’offre « Carrier Crusher » de Boost Mobile est trop bon marché – Hitech-world

Ordinateurs et informatique3 semaines ago

Les ordinateurs portables AMD Ryzen 6000 raviront les joueurs

Internet3 semaines ago

Mullvad vs Accès Internet privé

Test et Avis Domotique3 semaines ago

Les 5 meilleures serrures intelligentes pour 2021 – Hitech-world

Test et Avis Accessoires4 semaines ago

Tout ce dont vous avez besoin pour nettoyer votre dégoûtant ordinateur portable – Hitech-world

ARTICLES POPULAIRES