Dans le cadre des conférences offertes par le Festival interceltique de Lorient 2023, la chercheuse du CNRS Mélanie Jouitteau a exposé ses analyses de la révolution de l'intelligence artificielle en cours dans le cadre des langues minorisées et en particulier du breton.
La découverte de l'imprimerie avait en soi révolutionné et démocratisé les connaissances, du moins pour une certaine classe de la société, mais aux dépens des dialectes et des langues moins répandues. L'imprimeur ne pouvait pas imprimer son livre dans tous les dialectes et les langues du pays. La révolution numérique cinq siècles plus tard, en éliminant le papier et l'encre, permet d'enregistrer, de codifier et d'utiliser absolument toutes les expressions du genre humain, orales, écrites, et sans doute un jour, la pensée elle-même avec des capteurs dans nos cerveaux.
Le seul problème, et pas des moindres, c'est que plus ces langues sont minorisées, plus petit est le corpus (le corpus est l'ensemble des textes et des enregistrements récoltés). Ces ressources permettent de donner une intelligence aux transcripteurs, aux traducteurs, aux sous-titreurs, aux correcteurs de saisie, et à la reconnaissance optique (inexistante pour le breton). Il faut instruire les machines avec des millions de textes et d'enregistrements. Pour l'anglais, parlé par un milliard de personnes, les résultats d'applications comme ChatGPT 4.0 ou comme Whisper (numérisation de l'anglais oral) sont prometteuses. Par contre, ABP a demandé à ChatGPT 3.5 de traduire une phrase du français en breton et le résultat a été inacceptable. ChatGPT 4.0 serait meilleur mais il est payant.
Le Traitement Automatique des Langues (TAL)
Des scientifiques, et pas seulement bretons, construisent le corpus de la langue bretonne avec des agrégateurs qui parcourent l'internet à la recherche de données libres de droits. Pour faciliter la tâche des robots ou BOTs, il est recommandé, insiste Mélanie Jouitteau, d'utiliser [[Creative Commons]] c'est-à-dire d'indiquer sur toutes vos communications publiques en breton numérisé, les droits et les possibilités de partages y compris à usage commercial. Pour choisir la licence qui vous convient, l'outil de
Mélanie Jouitteau aborde aussi les problèmes que posent la fabrication de corpus, les problèmes juridiques de droits d'auteur, les problèmes de surexploitation de ceux, dans des pays pauvres lointains, qui entrent les données dans les ordinateurs. Et pas des moindres, le danger de la privatisation du bien commun qu'est une langue. Les langues, y compris les langages informatiques, sont dans le domaine public, il n'y a aucune raison que le corpus des langues ne le soient pas. Les choses iraient beaucoup plus vite si les corpus étaient accessibles à tous.
Où en est la langue bretonne ?
La Bretagne a pris un certain retard dans les applications. On constate l'absence du breton dans les traducteurs populaires comme Google Translate ou les application de traduction sur mobile. Ofis ar brezhoneg a finalement sorti un traducteur correct
Vu que le corpus rassemblé par les langues minorisées comme le breton est restreint, la qualité des applications est forcément moindre car l'intelligence artificielle est basée sur le deep learning et l'apprentissage des machines demande le plus de données possible. Comme les humains, les machines doivent apprendre par l'expérience et les machines apprennent bien moins vite que les enfants pour des raisons encore inexpliquées. Elles ne raisonnent pas pareil. Pour le moment, notre effort doit donc porter sur l'envoi et la collecte de textes, de vidéos, et d'enregistrements en breton, nous explique Mélanie Jouitteau. Pour aller plus loin sur l'histoire du développement de breton numérique
Polémique entre domaine public et domaine privé
La polémique autour du bien commun, du domaine public et du privé nous fait penser à l'affaire du sang contaminé, un des plus grands scandales sanitaires en France. Entre 1984 et 1985, 2000 hémophiles ont reçu le virus du sida (VIH) suite à des transfusions de sang contaminé. On sait aujourd'hui que le ministère de la Santé n'avait pas voulu acheter le test du laboratoire américain Abbott très efficace pourtant. Les filtres français de l'institut Pasteur ont été préférés et ils étaient défectueux et en plus, plus chers. 200 personnes sont mortes à cause d'une décision politique. Aujourd'hui, la langue bretonne est en train de mourir pour les mêmes raisons. ABP a reçu ce commentaire de quelqu'un travaillant pour Ofis ar Brezhoneg à propos de Google «Ce n'est pas le travail de l'Office Public de la Langue Bretonne de travailler pour une entreprise privée qui gagne des milliards chaque année.» Pourtant le succès de l'internet est dû à une fantastique symbiose entre le secteur public (les protocoles, les structures, le réseau) et des entreprises privées comme Alphabet (Google) ou les réseaux sociaux. La même chose devra se faire pour l'intelligence artificielle si on veut aboutir. Mélanie Jouitteau précise que « les corpus, financés par le public, financés par le privé, ou les deux, doivent être libres d'accès, et distribués de façon pérenne. L'important est que ces ressources pérennes soient ouvertes à tous, repérables à l'autre bout du monde par n'importe quel développeur. Il faut des corpus libres, en ligne avec une conformité aux principes FAIR (Findable, Accessible, Interoperable, Reusable).Les organismes de recherche actuels comme le CNRS ont les moyens d'opérer cette distribution en ligne, via
Pour Yann Lecun, directeur de la recherche en IA chez META, « Il suffirait de convaincre la Ministre de la culture de collecter les textes en langues régionales et de financer l'entraînement d'un LLM (Large Language Model) open source avec ces données ». Yann Lecun précise que META « a déjà produit des systèmes de reconnaissance de parole pour un millier de langues dont des systèmes de traduction pour des dialectes parlés, sans système d'écriture, et des systèmes de traduction pour 200 langues ». Le breton qui y était au début n'y figure plus car le corpus est trop petit selon Yann Lecun. Voir à ce sujet
Alors quoi faire ? Quand vous écrivez ou dites quoi ce soit en breton sur l'internet, et qui n'est pas du domaine privé, pensez à lui mettre une licence ouverte, car ce matériel permettra la création d'outils qui peuvent sauver la langue bretonne et d'une façon générale la création d'une intelligence qui, on l'espère, finira pas dépasser la nôtre.
■Le nerf de la guerre, c'est l'alimentation de ces neurones artificielles en données déjà existantes...
Il est probable que la machine ne fera pas de telles différences avant quelques temps si elle y arrive un jour ce qui n'est pas prouvé.
C'est peut-être cela qui rend lent l «apprentissage» fait par la machine. En revanche, peut-être que la pérennisation de sa mémoire est plus fiable que celle de l'humain.
Par ailleurs, l'image émotionnelle positive qui émane d'une langue est primordiale pour sa transmission d'où l'importance de l'entourage immédiat et plus tard de l'importance de la société.
On connaît bien ce phénomène inversé en Bretagne et les graves résultats qui en ont découlé et qui en découlent encore...
J'ai tendance à penser qu'une langue purement business n'a pas forcément un avenir solide justement parce que «l'argent reste l'argent» et toute communication est bonne dans ce but; le changement de langue est alors dans ce cadre purement technique et il est bien évidemment très loin de ce qu'éprouve un enfant quand il apprend de sa communauté d'origine.
a galon
L'article soulève aussi un point important : Le fait que les enfants sont la clé de la survie du breton. Pas étonnant que les cours du soir pour adultes sont une voie sans issue et une perte de temps. Seul les enfants ont le cheminement intellectuel et la motivation nécessaires pour devenir des locuteurs actifs, et ça la recherche scientifique l'a bien prouvé.
Heureusement le CNRS, dont l'excellence n'est plus à démontrer, est une fois encore à la hauteur du défi : sauver la langue bretonne en numérisant des locuteurs natifs, sans oublier de prendre les selfies qui vont bien. Bravo et merci.
Vous oubliez l'IA pour le Gallo. Point d'IA pour le Gallo, point d'IA pour le breton.
Mais attendons la création d'un comité via Métavers et la version Chat GPT.50 qui créera un Gallo avec une graphie révolutionnaire digne de la cryptographie de cyberdéfense.
L'IA n'est qu'un instrument...si il n'y a pas de (vrais) locuteurs de breton, pas de publications en breton, il n'y aura pas d'IA en breton.
Pour que l'IA en breton fonctionne, il faut de très nombreux textes en breton (et pas de 5 lignes), des textes qui n'existent pas sur Internet notamment. Il suffit de regarder les traducteurs en ligne (très utiles pour les personnes qui veulent se perfectionner en breton en mode loisir), le breton est très très mal représenté. L'Internet n'a pas développé la production en breton, et l'écart s'est creusé avec les langues dominantes.
Nous avons un défaut énorme de production en breton, des langues qui étaient bien plus minoritaires que le breton il y a 50 ans sont largement en avance actuellement.
Concernant l'impact de l'IA (ou précédemment de l'Internet, les deux étant liés) sur les langues minoritaires, je comprends vos réserves, j'irais même au-delà.
Prenons l'exemple très concret de Wikipedia qui produit du texte globalement sérieux, de la vulgarisation scientifique, de l'information universelle, qui est utilisé par un très très grand nombre.
Théoriquement on pourrait penser qu'il pourrait être un moyen de démocratiser les langues minoritaires, de les relier à la modernité.
Sauf que concrètement à titre personnel, les pages en breton sont d'une telle pauvreté qu'il parait inconcevable de s'en contenter. D'ailleurs il n'y a pas de pages wikipedia en breton sur à peu près tous les sujets. Donc connaitre le breton ne permet pas d'apprendre avec Wikipedia. Alors que la fonctionnalité est ouverte pourtant.
Mais ce n'est pas tout, en réalité même les pages en français font pâle figure à côté de l'anglais, c'est même de plus en plus criant avec le temps, sauf sur des sujets, personnalités strictement françaises.
Il m'arrive de plus en plus souvent d'aller directement et uniquement sur la page Wikipedia anglais, car c'est complet, contrairement au français.
Alors, j'utilise aussi régulièrement (mais pas toujours) le traducteur de cette page en anglais vers le français, une sorte d'IA finalement.
Mais cela suppose que moi-même ma langue maternelle ne soit pas l'anglais. Au final Wikipedia est un formidable outil d'unification linguistique, je n'ai jamais lu autant l'anglais qu'avec Wikipedia, alors que pourtant dans l'absolu Wikipedia en manx ou breton existe.
Pour le breton, c'est assez simple d'en tirer des conclusions par rapport au développement de l'IA : il y a un manque de données, mais même avec les données, l'IA en breton n'a d'intérêt que si les gens parlent eux-mêmes d'ores et déjà couramment le breton. Mais à quoi bon apprendre le breton si les données dans les langues plus courantes que nous maitrisons (ou qui sont notre langue maternelle) sont infiniment plus riches en ressources/informations/données ?
Ma conclusion c'est qu'en réalité la massification des données, la multiplication de l'échange de l'information avec ces nouvelles technologies nous conduisent tout droit vers le monolinguisme et non vers la diversité.
Ce n'est que la volonté des Etats qui peut actuellement freiner (mais de moins en moins) ce processus. Le breton n'a pas d'Etat.
La survie du breton pourrait à la limite passer par une forme de marginalité vis à vis de ces nouvelles technologies...parler, et utiliser le breton pourrait permettre d'être à la marge de l'algorithme et du fichage généralisé, une forme de liberté...c'est une dimension qui est à creuser, une sorte de communauté post-Internet.