L'intelligence artificielle peut-elle sauver la langue bretonne de l'extinction ?

Reportage publié le 11/08/23 15:34 dans Science et Technologie par Philippe Argouarch pour ABP
t:1
https://abp.bzh/thumbs/58/58230/58230_2.png
Mélanie Jouitteau, chercheuse au CNRS en sciences du Langage
Comment les langues à corpus restreint peuvent-elles survivre à l'intelligence artificielle ? (223 vues)

Dans le cadre des conférences offertes par le Festival interceltique de Lorient 2023, la chercheuse du CNRS Mélanie Jouitteau a exposé ses analyses de la révolution de l'intelligence artificielle en cours dans le cadre des langues minorisées et en particulier du breton.

La découverte de l'imprimerie avait en soi révolutionné et démocratisé les connaissances, du moins pour une certaine classe de la société, mais aux dépens des dialectes et des langues moins répandues. L'imprimeur ne pouvait pas imprimer son livre dans tous les dialectes et les langues du pays. La révolution numérique cinq siècles plus tard, en éliminant le papier et l'encre, permet d'enregistrer, de codifier et d'utiliser absolument toutes les expressions du genre humain, orales, écrites, et sans doute un jour, la pensée elle-même avec des capteurs dans nos cerveaux.

Le seul problème, et pas des moindres, c'est que plus ces langues sont minorisées, plus petit est le corpus (le corpus est l'ensemble des textes et des enregistrements récoltés). Ces ressources permettent de donner une intelligence aux transcripteurs, aux traducteurs, aux sous-titreurs, aux correcteurs de saisie, et à la reconnaissance optique (inexistante pour le breton). Il faut instruire les machines avec des millions de textes et d'enregistrements. Pour l'anglais, parlé par un milliard de personnes, les résultats d'applications comme ChatGPT 4.0 ou comme Whisper (numérisation de l'anglais oral) sont prometteuses. Par contre, ABP a demandé à ChatGPT 3.5 de traduire une phrase du français en breton et le résultat a été inacceptable. ChatGPT 4.0 serait meilleur mais il est payant.

Le Traitement Automatique des Langues (TAL)

Des scientifiques, et pas seulement bretons, construisent le corpus de la langue bretonne avec des agrégateurs qui parcourent l'internet à la recherche de données libres de droits. Pour faciliter la tâche des robots ou BOTs, il est recommandé, insiste Mélanie Jouitteau, d'utiliser [[Creative Commons]] c'est-à-dire d'indiquer sur toutes vos communications publiques en breton numérisé, les droits et les possibilités de partages y compris à usage commercial. Pour choisir la licence qui vous convient, l'outil de Creative Commons est facile d'usage

Mélanie Jouitteau aborde aussi les problèmes que posent la fabrication de corpus, les problèmes juridiques de droits d'auteur, les problèmes de surexploitation de ceux, dans des pays pauvres lointains, qui entrent les données dans les ordinateurs. Et pas des moindres, le danger de la privatisation du bien commun qu'est une langue. Les langues, y compris les langages informatiques, sont dans le domaine public, il n'y a aucune raison que le corpus des langues ne le soient pas. Les choses iraient beaucoup plus vite si les corpus étaient accessibles à tous.

Où en est la langue bretonne ?

La Bretagne a pris un certain retard dans les applications. On constate l'absence du breton dans les traducteurs populaires comme Google Translate ou les application de traduction sur mobile. Ofis ar brezhoneg a finalement sorti un traducteur correct français - breton sur son site et merci à Alan Entem et Brendan-Budok Durand-Le Ludec pour leur travail. Il remplace un traducteur un premier traducteur lancé en 2010 (Apertium). Apertium avait été développé par Frank Tyers, de l'université d'Alicante. Il a aussi développé le premier corpus Universal Dependencies pour le breton en 2018 avec Vinit Ravishankar de l'université d'Oslo.

Vu que le corpus rassemblé par les langues minorisées comme le breton est restreint, la qualité des applications est forcément moindre car l'intelligence artificielle est basée sur le deep learning et l'apprentissage des machines demande le plus de données possible. Comme les humains, les machines doivent apprendre par l'expérience et les machines apprennent bien moins vite que les enfants pour des raisons encore inexpliquées. Elles ne raisonnent pas pareil. Pour le moment, notre effort doit donc porter sur l'envoi et la collecte de textes, de vidéos, et d'enregistrements en breton, nous explique Mélanie Jouitteau. Pour aller plus loin sur l'histoire du développement de breton numérique voir la page du CNRS

Polémique entre domaine public et domaine privé

La polémique autour du bien commun, du domaine public et du privé nous fait penser à l'affaire du sang contaminé, un des plus grands scandales sanitaires en France. Entre 1984 et 1985, 2000 hémophiles ont reçu le virus du sida (VIH) suite à des transfusions de sang contaminé. On sait aujourd'hui que le ministère de la Santé n'avait pas voulu acheter le test du laboratoire américain Abbott très efficace pourtant. Les filtres français de l'institut Pasteur ont été préférés et ils étaient défectueux et en plus, plus chers. 200 personnes sont mortes à cause d'une décision politique. Aujourd'hui, la langue bretonne est en train de mourir pour les mêmes raisons. ABP a reçu ce commentaire de quelqu'un travaillant pour Ofis ar Brezhoneg à propos de Google "Ce n'est pas le travail de l'Office Public de la Langue Bretonne de travailler pour une entreprise privée qui gagne des milliards chaque année." Pourtant le succès de l'internet est dû à une fantastique symbiose entre le secteur public (les protocoles, les structures, le réseau) et des entreprises privées comme Alphabet (Google) ou les réseaux sociaux. La même chose devra se faire pour l'intelligence artificielle si on veut aboutir. Mélanie Jouitteau précise que « les corpus, financés par le public, financés par le privé, ou les deux, doivent être libres d'accès, et distribués de façon pérenne. L'important est que ces ressources pérennes soient ouvertes à tous, repérables à l'autre bout du monde par n'importe quel développeur. Il faut des corpus libres, en ligne avec une conformité aux principes FAIR (Findable, Accessible, Interoperable, Reusable).Les organismes de recherche actuels comme le CNRS ont les moyens d'opérer cette distribution en ligne, via le site cocoon par exemple. »

Pour Yann Lecun, directeur de la recherche en IA chez META, « Il suffirait de convaincre la Ministre de la culture de collecter les textes en langues régionales et de financer l'entraînement d'un LLM (Large Language Model) open source avec ces données ». Yann Lecun précise que META « a déjà produit des systèmes de reconnaissance de parole pour un millier de langues dont des systèmes de traduction pour des dialectes parlés, sans système d'écriture, et des systèmes de traduction pour 200 langues ». Le breton qui y était au début n'y figure plus car le corpus est trop petit selon Yann Lecun. Voir à ce sujet No language left behind . Yann Lecun précise que tous les corpus (il s'agirait donc de 1000 langues) sont open source

Alors quoi faire ? Quand vous écrivez ou dites quoi ce soit en breton sur l'internet, et qui n'est pas du domaine privé, pensez à lui mettre une licence ouverte, car ce matériel permettra la création d'outils qui peuvent sauver la langue bretonne et d'une façon générale la création d'une intelligence qui, on l'espère, finira pas dépasser la nôtre.


Vos commentaires :
Lundi 29 avril 2024
La technologie est un leurre en matière d' humanité. A partir du moment ou on vénère un outil l'âme humaine n'existe plus dans le temps présent. L'informatique est une forme de totalitarisme basée sur «l'intelligence séduisante » que laisse supposer la conception de l'outil informatique. Il fascine et prend le rôle de «divinité» du future.
L'être humain perd le contrôle de sa vie et de son avenir en tant qu'être humain et on le lui fait perdre...
La langue bretonne ( comme chaque langue ) est le seul rempart crédible pour se protéger de l'uniformisation du mondialisme. La langue est la forme humaine la plus puissante de structuration sociale sans laquelle la communauté humaine n'existe pour ainsi dire pas ou avec peu de chance de survie. Mais ce qui est vrai pour un groupe humain l'est aussi pour l'humanité entière; L'anglais n'a de la valeur que si d'autres langues existes et cela est valable pour chaque langue. La vérité humaine ne se crée au cours du temps que par la confrontation d'idée différentes et les langues agissent comme démultiplicateur de concept tout simplement parce qu'elles sont la source d'expérience de vie différentes mener dans des milieux différents. Ces expériences façonnent les langues et les concepts qu'elles peuvent exprimer. Leurs confrontation crée une richesse de réflexion humaine à l'échelle de la planète... Encore faut-il bannir «La Méthode» qui est un carcan à l'émergence d'une réflexion véritable...
Je pense que L'IA ne pourra jamais créer cela parce qu'elle ne peut pas concevoir le rapport que l'être humain entretien avec la nature. On remarque d'ailleurs que ce rapport à la nature est dégradé pour ne pas dire combattu et pour cause...
0

Écrire un commentaire :

Cette fonctionnalité est indisponible en ce moment, mais existe sur votre ordinateur.

Combien font 5 multiplié par 0 ?
Note : Ce lieu est un lieu de débat. Les attaques personnelles ne sont pas autorisées. Le trolling est interdit. Les lois contre le racisme, le sexisme, et la diffamation doivent être respectées. LES COMMENTAIRES ÉCRITS DANS UNE LANGUE AUTRE QUE CELLE DE L'ARTICLE NE SERONT PAS MIS EN LIGNE.