Vous souvenez-vous quand l’idée de TROUSSE, la voiture bavarde de Knight Rider, vous a toujours époustouflé? Ou quand Blade Runner Eric Decker a verbalement commandé à son ordinateur d’améliorer les photos d’une scène de crime ? L’idée d’être compris par un ordinateur semblait assez futuriste, sans parler de celui qui pourrait répondre à vos questions et comprendre vos commandes.
A propos de l’auteur
Graeme John Cole est un contributeur de Rev, créateur du moteur de reconnaissance vocale automatique le plus précis au monde, Rev.ai.
Aujourd’hui, nous portons tous KITT dans nos poches. Nous soupirons lorsque KITT répond au téléphone à la banque. La personnalité n’est pas encore tout à fait là, mais les ordinateurs peuvent reconnaître les mots que nous prononçons presque parfaitement.
Michael Knight, le héros Knight Rider qui s’est associé à sa voiture intelligente pour lutter contre le crime, était sceptique à l’idée que KITT puisse comprendre ses questions en 1982. Mais le développement de la technologie de reconnaissance vocale était en cours depuis les années 1950. Voici un aperçu de l’évolution de cette technologie au fil des ans. Et comment nos façons d’utiliser la reconnaissance vocale et les capacités de synthèse vocale ont évolué parallèlement à la technologie.
Sommaire
Les premiers ordinateurs d’écoute, années 1950-80
La puissance de la reconnaissance vocale automatisée (ASR) signifie que son développement a toujours été associé à de grands noms.
Les Laboratoires Bell ont ouvert la voie avec AUDREY en 1952. Le système AUDREY reconnaissait les numéros parlés avec une précision de 97 à 99 %, dans des conditions soigneusement contrôlées. Cependant, selon James Flanagan, un scientifique et ancien ingénieur électricien des Bell Labs, AUDREY a siégé sur « un rack de relais de six pieds de haut, consommait une puissance substantielle et présentait les innombrables problèmes de maintenance associés aux circuits complexes de tubes à vide. » AUDREY était trop coûteux et peu pratique, même pour les cas d’utilisation spécialisés.
IBM a suivi en 1962 avec la Shoebox, qui reconnaissait les nombres et les termes mathématiques simples. Pendant ce temps, les laboratoires japonais développaient des reconnaissances de voyelles et de phonèmes et le premier segment de parole. C’est une chose pour un ordinateur de comprendre une petite gamme de nombres (c’est-à-dire de 0 à 9), mais la percée de l’Université de Kyoto a été de « segmenter » une ligne de discours afin que la technologie puisse travailler sur une gamme de sons parlés.
Dans les années 1970, le ministère de la Défense (DARPA) a financé le programme Speech Understanding Research (SUR). Les fruits de cette recherche comprenaient le système de reconnaissance vocale HARPY de Carnegie Mellon. HARPY a reconnu des phrases à partir d’un vocabulaire de 1 011 mots, donnant au système la puissance d’un enfant moyen de trois ans. Comme un enfant de trois ans, la reconnaissance vocale était désormais charmante et avait du potentiel, mais vous n’en voudriez pas au bureau.
HARPY a été parmi les premiers à utiliser les modèles cachés de Markov (HMM). Cette méthode probabiliste a conduit au développement de l’ASR dans les années 1980. En effet, dans les années 1980, les premiers cas d’utilisation viables des outils de synthèse vocale sont apparus avec le système de transcription expérimental d’IBM, Tangora. Correctement entraîné, Tangora pouvait reconnaître et taper 20 000 mots en anglais. Cependant, le système était encore trop lourd pour une utilisation commerciale.
ASR au niveau des consommateurs, des années 1990 aux années 2010
« Nous pensions qu’il était faux de demander à une machine d’imiter les gens », se souvient l’innovateur de la reconnaissance vocale d’IBM Fred Jelinek. « Après tout, si une machine doit se déplacer, elle le fait avec des roues, pas en marchant. Plutôt que d’étudier de manière exhaustive comment les gens écoutent et comprennent la parole, nous voulions trouver le moyen naturel pour la machine de le faire.
L’analyse statistique était maintenant le moteur de l’évolution de la technologie ASR. En 1990, Dragon Dictate a été lancé en tant que premier logiciel commercial de reconnaissance vocale. Il a coûté 9 000 $ – environ 18 890 $ en 2021, compte tenu de l’inflation. Jusqu’au lancement de Dragon Naturally Speaking en 1997, les utilisateurs devaient encore faire une pause entre chaque mot.
En 1992, AT&T a introduit le service de traitement des appels par reconnaissance vocale (VRCP) de Bell Labs. VRCP traite désormais environ 1,2 milliard de transactions vocales chaque année.
Mais la plupart des travaux sur la reconnaissance vocale dans les années 1990 ont eu lieu sous le capot. L’informatique personnelle et le réseau omniprésent ont créé de nouveaux angles d’innovation. Telle était l’opportunité repérée par Mike Cohen, qui a rejoint Google pour lancer les efforts de technologie vocale de l’entreprise en 2004. Google Voice Search (2007) a fourni la technologie de reconnaissance vocale aux masses. Mais il a également recyclé les données vocales de millions d’utilisateurs en réseau en tant que matériel de formation pour l’apprentissage automatique. Et il avait le poids de traitement de Google pour faire avancer la qualité.
Apple (Siri) et Microsoft (Cortana) ont suivi juste pour rester dans le match. Au début des années 2010, l’émergence de l’apprentissage en profondeur, des réseaux neuronaux récurrents (RNN) et de la mémoire à long terme (LSTM) a conduit à un saut hyperespace dans les capacités de la technologie ASR. Cet élan en avant a également été largement motivé par l’émergence et la disponibilité accrue de l’informatique à faible coût et des avancées algorithmiques massives.
L’état actuel de l’ASR
S’appuyant sur des décennies d’évolution – et en réponse aux attentes croissantes des utilisateurs – la technologie de reconnaissance vocale a fait de nouveaux progrès au cours de la dernière demi-décennie. Des solutions pour optimiser la fidélité audio variable et les exigences matérielles exigeantes facilitent l’utilisation quotidienne de la reconnaissance vocale via la recherche vocale et l’Internet des objets.
Par exemple, les haut-parleurs intelligents utilisent la détection de mots chauds pour fournir un résultat immédiat à l’aide d’un logiciel intégré. Pendant ce temps, le reste de la phrase est envoyé au cloud pour traitement. de Google VoiceFilter-Lite optimise la parole d’un individu à la fin de la transaction sur l’appareil. Cela permet aux consommateurs de « former » leur appareil avec leur voix. La formation réduit le source-à-distorsion ratio (SDR), améliorant la convivialité des applications d’assistance à commande vocale.
Le taux d’erreur sur les mots (WER – le pourcentage de mots incorrects apparaissant au cours d’un processus de conversion de la parole en texte) s’améliore considérablement. Les universitaires suggèrent que d’ici la fin des années 2020, 99% du travail de transcription sera automatique. Les humains n’interviendront que pour le contrôle de la qualité et les corrections.
Cas d’utilisation de l’ASR dans les années 2020
La capacité ASR s’améliore en symbiose avec les développements de l’ère des réseaux. Voici un aperçu de trois cas d’utilisation convaincants pour la reconnaissance vocale automatisée.
L’industrie du podcasting va traverser le 1 milliard de dollars barrière en 2021. L’audience monte en flèche et les mots continuent d’affluer.
Les plateformes de podcast recherchent des fournisseurs ASR avec une grande précision et des horodatages par mot pour aider les gens à créer plus facilement des podcasts et maximiser la valeur de leur contenu. Des fournisseurs comme Descript convertissent les podcasts en texte pouvant être rapidement modifié.
De plus, les horodatages par mot permettent de gagner du temps, permettant à l’éditeur de façonner le podcast fini comme de l’argile. Ces transcriptions rendent également le contenu plus accessible à tous les publics et aident les créateurs à améliorer la recherche et la découverte de leurs émissions via le référencement.
De nos jours, de plus en plus de réunions ont lieu en ligne. Et même ceux qui ne le sont pas sont souvent enregistrés. La prise de minutes est coûteuse et prend du temps. Mais les notes de réunion sont un outil précieux pour les participants pour obtenir un récapitulatif ou vérifier un détail. Le streaming ASR offre une synthèse vocale en temps réel. Cela signifie un sous-titrage facile ou une transcription en direct pour les réunions et les séminaires.
Des processus tels que les dépositions légales, l’embauche, etc. deviennent virtuels. ASR peut aider à rendre ce contenu vidéo plus accessible et attrayant. Mais plus important encore, les modèles d’apprentissage automatique (ML) de bout en bout (E2E) améliorent encore la journalisation des locuteurs – l’enregistrement de qui est présent et qui a dit quoi.
Dans les situations à enjeux élevés, la confiance dans les outils est essentielle. Un moteur parole-texte fiable avec un WER ultra-faible supprime l’élément de doute et réduit le temps requis pour produire des documents finaux et prendre des décisions.
Au dossier
Pensez-vous que Knight Industries a déjà évalué la transcription des conversations de KITT et Michael pour améliorer l’efficacité ? Peut être pas. Mais, boostés par le récent passage au travail à domicile, de plus en plus de nos discussions ont lieu en ligne ou par téléphone. Le traitement du langage naturel en temps réel (NLP) très précis nous donne le pouvoir sur nos mots. Il ajoute de la valeur à chaque interaction.
Les outils ne sont plus exclusifs aux grands noms comme IBM et DARPA. Ils sont à la disposition des consommateurs, des entreprises et des développeurs pour qu’ils utilisent la façon dont leur imagination décide, alors que la technologie de reconnaissance vocale s’efforce de dépasser les promesses de la science-fiction.
Intéressé par la reconnaissance vocale ? Découvrez notre tour d’horizon des meilleur logiciel de synthèse vocale