Google ajoute 110 langues minoritaires à son traducteur dont le breton

Dépêche publié le 27/06/24 19:27 dans Langues de Bretagne par Philippe Argouarch pour Philippe Argouarch
https://abp.bzh/thumbs/70/70590/70590_1.png
Le campus de Google à Mountain View en Californie (photo Google)

Aujourd'hui l'entreprise américaine Alphabet a annoncé sur le blog de Google ajouter 110 nouvelles langues aux 133 déjà disponibles pour Google Traduction dont le breton, l'occitan, le manxois, le tahitien, le créole des Seychelles et celui de l'ile Maurice, le berbère (le Tamazight), le tatare de Crimée et un grand nombre de langues africaines. Ce sont principalement des langues minoritaires. Google a d'ailleurs déclaré avoir entendu les demandes des militants et des linguistes concernés par le futur de ces langues souvent menacées.

La liste des langues ajoutées est la suivante :

Abkhaz, Acehnese, Acholi, Afar, Alur, Avar, Awadhi, Balinese, Baluchi, Baoulé, Bashkir, Batak Karo, Batak Simalungun, Batak Toba, Bemba, Betawi, Bikol, Breton, Buryat, Cantonese, Chamorro, Chechen, Chuukese, Chuvash, Crimean Tatar, Dari, Dinka, Dombe, Dyula, Dzongkha, Faroese, Fijian, Fon, Friulian, Fulani, Ga, Hakha Chin, Hiligaynon, Hunsrik, Iban, Jamaican Patois, Jingpo, Kalaallisut, Kanuri, Kapampangan, Khasi, Kiga, Kikongo, Kituba, Kokborok, Komi, Latgalian, Ligurian, Limburgish, Lombard, Luo, Madurese, Makassar, Malay (Jawi), Mam, Manx, Marshallese, Marwadi, Mauritian Creole, Meadow Mari, Minang, Nahuatl (Eastern Huasteca), Ndau, Ndebele (South), Nepalbhasa (Newari), NKo, Nuer, Occitan, Ossetian, Pangasinan, Papiamento, Portuguese (Portugal), Punjabi (Shahmukhi), Q'eqchi', Romani, Rundi, Sami (North), Sango, Santali, Seychellois Creole, Shan, Sicilian, Silesian, Susu, Swati, Tahitian, Tamazight, Tamazight (Tifinagh), Tetum, Tibetan, Tiv, Tok Pisin, Tongan, Tswana, Tulu, Tumbuka, Tuvan, Udmurt, Venda, Venetian, Waray, Wolof, Yakut, Yucatec Maya, Zapotec.

Le modèle Pathways 2 de google

Google utilise son nouveau modèle basé sur l'IA, appelé Pathways Language Large Model 2. Ce modèle réduit la nécessité de construire de vastes corpus de milliers de phrases traduites (les corpus dits alignés). Un problème pour les petites langues comme le breton. L'intelligence artificielle permet une approche dynamique influencée à la fois par l'usage et le contexte au sein des phrases. Chaque mot est représenté par un vecteur principal correspondant à son sens principal, mais il peut également posséder plusieurs autres vecteurs pondérés pour ses sens alternatifs, y compris des nuances dialectales. La force de ces vecteurs varie en fonction du contexte et des autres mots de la phrase. Le vecteur avec l'amplitude la plus forte donne la traduction du mot dans une phrase donnée.

Pathways Language Model 2 repose sur une architecture qui optimise l'apprentissage et le traitement des données en dirigeant dynamiquement les tâches à travers des sous-réseaux spécialisés pour l'oral, l'écrit et les images. Cette approche améliore significativement l'efficacité et les performances du modèle dans diverses tâches de traitement du langage naturel. Cette approche multi-vectorielle et contextuelle va , on l'espère, catapulter le breton au même niveau que toute autre langue.

Notre test de traduction

Le traducteur accepte un collage d'un texte jusqu'à 5000 caractères à la fois ( à comparer avec le traducteur de Ofis Publik ar brezhoneg qui ne prend que 400 caractères) . ABP a traduit l'article écrit en breton (voir notre article) et voici le résultat étonnant donné par Google traduction :

L'appropriation culturelle dit que tout signifie la même chose. La neutralité dit qu’il n’y a plus rien qui ait un sens. Le déconstructionnisme dit que le passé ne veut rien dire. Voici trois vents effrayants qui rendent nos terres stériles ; des vents violents qui frappent les murs de nos maisons. Faut-il partir en vacances ? C’est l’une des questions que vous trouverez dans mon livre « Faiblesses » récemment publié.

Je me concentre sur des sujets contemporains : le blasphème, les fêtes islamiques, les foules, les frontières, la violence politique, l'intrusion extraterrestre, le robot et l'homme, l'homme et les animaux, le drame, la realpolitik, la liberté d'expression, les femmes et les hommes, la culture en déclin, l'autonomisation, les voyages interstellaires. , la nécessité d'affirmer le « moi masculin », le « moi masculin » étant ici tout ce que nous héritons de nos parents et de notre éducation.

En conclusion, l'ouvrage se termine par cette proposition : trouver un accord global pour la Bretagne, à la fois culturel, politique et anthropologique. --fin de la traduction en français

Une traduction assez remarquable !

Comme Google prévoit 1000 langues on peut même espérer de voir un jour le gallo.

Traductions des sous-titres des vidéos et des articles d'ABP

Les contributeurs d'ABP peuvent dès maintenant créer une version en français de leur article en breton et vice-versa, à condition de faire une relecture.

Comme l'entreprise Alphabet est aussi propriétaire de Youtube, il va de soi que le sous-titrage automatique en français des vidéos en breton et vice-versa va arriver très bientôt. En attendant, vous pouvez dorénavant traduire les fichiers chronométrés de sous-titres, fichiers SBV ou SRT, avec Google traduction et les envoyer sur Youtube avec votre vidéo.


Vos commentaires :
Emile Granville
Lundi 23 décembre 2024
Il est intéressant, et amusant pour moi, que le test ait été fait sur la présentation de mon dernier livre en breton Poentoù diflach. La traduction pour les phrases simples est bien faite. Par contre, pour les concepts un peu plus intellectuels, il y a des erreurs.

J’ai l’habitude, en fonction des besoins, de proposer des néologismes lorsque j’écris en breton. Les termes hervezouriezh et disavedouriezh ont été ainsi utilisés pour la première fois en breton dans ce texte. Le premier mot a pour base le terme hervez, selon, pour traduire relativisme. Hervezouriezh pourrait alors se traduire par «selonisme». L’IA a buggé en traduisant par appropriation culturelle. Que ce terme n’ait pas été reconnu est donc tout à fait compréhensible. Par contre, la traduction de disavedouriezh est parfaite, «déconstructionnisme» est équivalent à «déconstructivisme», voire plus facile à comprendre, bravo ! Netraouriezh, nihilisme, terme non-nouveau en breton, pourrait se traduire par «rienisme». L’IA le traduit par neutralité, alors que la neutralité en breton se dit neptuegezh, sur la base neptu, d’aucun côté.

Etonnant aussi que Poentoù diflach, points fixes, ait été traduit par Faiblesses, pobl par foules, galloud-prenañ, pouvoir d’achat, par autonomisation.

Les autres erreurs viennent de confusions de mots. Gouel a deux sens : fête religieuse ou voile. Dramm, drogue, a été pris pour drama, drame. «Gour-me», a été traduit par «moi masculin», gour, masculin et me, moi. Donc la traduction est immédiate. Sauf qu’ici, gour est un préfixe qui veut dire, sur, au-dessus de, utilisé pour exprimer la notion de sur-moi.

Une traduction amusante aussi, - puisque nous sommes en été ! -, est d’avoir traduit «Ha dleout a rafemp mont da gantreidi ?» par «Faut-il partir en vacances ?», alors que kantread veut dire nomade.

La dernière phrase de conclusion est parfaitement traduite : trouver un accord global pour la Bretagne, à la fois culturel, politique et anthropologique. Puisse cette proposition - lancée comme une bouteille à la mer et comprise par l’IA-, avoir quelque part un écho favorable !


Naon-e-dad
Lundi 23 décembre 2024
Cela marche aussi pour la graphie dite universitaire ou «skolveuriek».
.
Le résultat semble remarquable. Avec quelques observations étonnantes cependant.
.
Le tutoiement dans le texte breton d'origine transformé en «vouvoiement» dans la traduction française résultante. Exemple avec cette phrase (Lukaz 1, 13) de l'Evangile de Saint Luc (le texte est disponible in-extenso sur le site de l'évêché de Kemper.
.
breton en graphie skolveuriek:
.
Da wreg Elizabed a roio dit eur mab hag e laki Yann e ano
.
français en sortie du traducteur google:
.
Votre femme Elisabeth vous enfantera un fils, et vous l'appellerez Jean.
.
Un peu étrange. Sur un cas aussi simple et aussi évident, il y a de quoi se demander comment fonctionne l'IA .
.
Ne vern, mersi braz da c'hoggle, evit al labour-mañ. Mont a raio war wellaat tamm-ha-tamm a-dra-sur.

Naon-e--dad
Lundi 23 décembre 2024
Un mystère:
.
Le terme breton «raklavar» (préambule) est traduit par «garçons» («paotred »e brezhoneg).
.
Mais le logiciel signale que - apparemment - il est allé piocher dans l'hindi. Alors même qu'il est positionné sur la traduction dans le sens breton (source) vers le français (cible).
.
Je signale le fait pour que les ingénieurs de Google puissent trouver le bug (sans doute assez général).
.
Sinon, et avec les réserves d'usage (c'est-à-dire relecture humaine obligatoire du texte proposé en sortie du logiciel, quel que soit le sens de traduction): Bravo et Respect!
.
Gourc'hemennoù, d'an ijinourien. Moaien zo gwelaat ar benveg-mañ. Mes brav eo dija!

Fulup T.
Lundi 23 décembre 2024
Ce qui est important aujoud'hui et dans l'avenir, c'est d'ENTENDRE et PARLER le breton, pas de le lire en sous-titrage.
Et avec l'ACCENT, tout aussi important (si ce n'est plus) qu'une grammaire parfaite. J'insiste sur ce dernier point, étant de plus en plus horrifié par l'accent yvelinois des vidéos en breton que je consulte ça et là et ne donne absolument pas envie...parler avec l'accent ne demande pourtant AUCUN effort. Et le parler avec l'accent versaillais, c'est déjà s'excuser de parler breton.

Anti-spam : Combien font 0 multiplié par 5 ?