Internet
Google devient plus multilingue, mais obtiendra-t-il la nuance ?
Environ 10 millions de personnes parlent le quechua, mais essayer de traduire automatiquement des courriels et des messages texte dans la famille de langues indigènes la plus parlée des Amériques a longtemps été pratiquement impossible.
La situation a changé mercredi, lorsque Google a ajouté le quechua et une série d’autres langues à son service de traduction numérique.
Le géant de l’Internet affirme que la nouvelle technologie d’intelligence artificielle lui permet d’élargir considérablement le répertoire des langues du monde de Google Translate. Il en a ajouté 24 cette semaine, dont le quechua et d’autres langues indigènes d’Amérique du Sud comme le guarani et l’aymara. Google Translate ajoute également un certain nombre de langues africaines et sud-asiatiques très répandues, qui étaient jusqu’à présent absentes des produits technologiques populaires.
« Nous avons examiné les langues dont les populations sont très nombreuses et mal desservies », a déclaré Isaac Caswell, chercheur scientifique chez Google, aux journalistes.
Les nouvelles de la vitrine technologique annuelle I/O de la société californienne peuvent être célébrées dans de nombreux coins du monde. Mais elle risque aussi de susciter des critiques de la part de ceux qui ont été frustrés par des produits technologiques qui ne comprenaient pas les nuances de leur langue ou de leur culture.
Le quechua était la lingua franca de l’empire inca, qui s’étendait de ce qui est aujourd’hui le sud de la Colombie au centre du Chili. Son statut a commencé à décliner après la conquête espagnole du Pérou, il y a plus de 400 ans.
L’ajouter aux langues reconnues par Google est une grande victoire pour les militants de la langue quechua comme Luis Illaccanqui, un Péruvien qui a créé le site web Qichwa 2.0, qui comprend des dictionnaires et des ressources pour apprendre la langue.
« Cela contribuera à mettre le quechua et l’espagnol sur le même pied », a déclaré M. Illaccanqui, qui n’a pas participé au projet de Google.
Illaccanqui, dont le nom de famille en quechua signifie « tu es l’éclair », a déclaré que le traducteur aidera également à maintenir la langue vivante auprès d’une nouvelle génération de jeunes et d’adolescents, « qui parlent le quechua et l’espagnol en même temps et sont fascinés par les réseaux sociaux. »
M. Caswell a qualifié cette nouvelle de « très grande avancée technologique », car jusqu’à récemment, il n’était pas possible d’ajouter des langues si les chercheurs ne parvenaient pas à trouver une quantité suffisante de textes en ligne – tels que des livres numériques, des journaux ou des messages sur les médias sociaux – pour que leurs systèmes d’IA puissent apprendre.
Les géants américains de la technologie n’ont pas l’habitude de faire fonctionner leur technologie linguistique en dehors des marchés les plus riches, un problème qui a également rendu plus difficile la détection de fausses informations dangereuses sur leurs plateformes. Jusqu’à cette semaine, Google Translate était proposé dans des langues européennes telles que le frison, le maltais, l’islandais et le corse – chacune comptant moins d’un million de locuteurs – mais pas dans des langues d’Afrique de l’Est telles que l’oromo et le tigrinya, qui comptent des millions de locuteurs.
Les nouvelles langues seront déployées cette semaine. Elles ne seront pas encore comprises par l’assistant vocal de Google, ce qui les limite pour l’instant à des traductions de texte à texte. Google a déclaré qu’il travaillait sur l’ajout de la reconnaissance vocale et d’autres capacités, comme la possibilité de traduire un signe en pointant une caméra dessus.
Cela sera important pour les langues largement parlées comme le quechua, en particulier dans le domaine de la santé, car de nombreux médecins et infirmières péruviens qui ne parlent que l’espagnol travaillent dans des zones rurales et « sont incapables de comprendre les patients qui parlent principalement le quechua », a déclaré Illaccanqui.
« La prochaine frontière, ou défi, est de travailler sur la parole », a déclaré Arturo Oncevay, un chercheur péruvien en traduction automatique à l’Université d’Édimbourg qui a cofondé une coalition de recherche visant à améliorer la technologie des langues indigènes à travers les Amériques. « Les langues indigènes des Amériques sont traditionnellement orales ».
Dans son annonce, Google a mis en garde contre le fait que la qualité des traductions dans les langues nouvellement ajoutées « est encore loin derrière » les autres langues qu’elle prend en charge, telles que l’anglais, l’espagnol et l’allemand, et a noté que les modèles « feront des erreurs et présenteront leurs propres biais ». Mais l’entreprise n’ajoute des langues que si ses systèmes d’IA atteignent un certain seuil de compétence, a précisé M. Caswell.
« S’il y a un nombre important de cas où il est très mauvais, alors nous ne l’inclurions pas », a-t-il dit. « Même si 90% des traductions sont parfaites, mais que 10% sont absurdes, c’est un peu trop pour nous ».
Google a déclaré que ses produits prennent désormais en charge 133 langues. Les 24 dernières sont le plus grand lot unique à être ajouté depuis que Google a incorporé 16 nouvelles langues en 2010. Cette expansion a été rendue possible par ce que Google appelle un modèle de traduction automatique « zéro coup » ou « zéro ressource », qui apprend à traduire dans une autre langue sans jamais en voir un exemple.
Meta, la société mère de Facebook et d’Instagram, a présenté un concept similaire appelé le traducteur vocal universel l’année dernière.
Le modèle de Google fonctionne en formant un « gigantesque modèle neuronal d’IA » sur une centaine de langues riches en données, puis en appliquant ce qu’il a appris à des centaines d’autres langues qu’il ne connaît pas, a expliqué M. Caswell. « Imaginez que vous êtes un grand polyglotte et que vous commencez à lire des romans dans une autre langue, vous pouvez commencer à comprendre ce que cela peut signifier en vous basant sur votre connaissance de la langue en général », a-t-il déclaré.
Selon lui, le nouveau groupe va de petites langues comme le mizo, parlé dans le nord-est de l’Inde par environ 800 000 personnes, à des langues plus répandues comme le lingala, parlé par environ 45 millions de personnes en Afrique centrale.
Il y a plus de 15 ans, en 2006, Microsoft a attiré l’attention en Amérique du Sud avec une fonction logicielle traduisant les menus et commandes familiers de Microsoft en quechua. Mais c’était avant la vague actuelle de progrès de l’IA en matière de traduction en temps réel.
Américo Mendoza-Mori, spécialiste des langues de l’Université de Harvard, qui parle le quechua, a déclaré que l’attention de Google apporte une visibilité nécessaire à la langue dans des endroits comme le Pérou, où les locuteurs de quechua sont encore absents de nombreux services publics. La survie de bon nombre de ces langues « dépendra de leur utilisation dans des contextes numériques », a-t-il déclaré.
Un autre spécialiste des langues, Roberto Zariquiey, a déclaré qu’il doutait que Google puisse créer un outil efficace de revitalisation des langues quechua, aymara ou guarani sans une participation plus étroite des groupes communautaires de la région.
« Les langues sont profondément liées aux vies, aux cultures, aux groupes ethniques et aux organisations politiques », a déclaré Zariquiey, linguiste à l’Université catholique pontificale du Pérou. « Cela devrait être pris en compte ».
—
Les nouvelles langues ajoutées sont : Assamais, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sanskrit, Sepedi, Sorani Kurde, Tigrinya, Tsonga et Twi.
Vous avez besoin d’un médecin ? Google peut désormais vous aider à trouver les établissements qui acceptent votre assurance maladie.
© 2022 The Associated Press. Tous droits réservés. Ce matériel ne peut être publié, diffusé, réécrit ou redistribué sans autorisation.
Citation:
Google devient plus multilingue, mais obtiendra-t-il la nuance ? (2022, 11 mai)
récupéré le 12 mai 2022
à partir de https://techxplore.com/news/2022-05-google-multilingual-nuance.html
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune
partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre d’information uniquement.