Où en sont les traducteurs automatiques du breton ?

Reportage publié le 9/06/24 16:40 dans Langues de Bretagne par Philippe Argouarch pour Philippe Argouarch
https://abp.bzh/thumbs/70/70258/70258_1.png
...
Translation : State of the art and going forward (97 vues)

Hier le 8 juin, s'est tenu à Quimper un atelier sur les technologies du breton organisé par l'Université UBO à Quimper, le laboratoire IKER du CNRS . L'objectif de cet atelier, qui s'est tenu en anglais, était de faciliter une rencontre entre linguistes et développeurs de technologies pour les langues bretonnes et brittoniques. Selon les organisateurs, l'objectif est « de favoriser une compréhension plus profonde des réalisations de chacun et de renforcer la capacité collective dans ce domaine ». Le colloque s'est tenu en anglais pour favoriser la participation d'autres acteurs ou actrices des langues celtiques ou autres langues minoritaires.

Les GAFAM

Les GAFAM sont les abréviations des grandes entreprises américaines du numérique. Il n'a pas échappé aux défenseurs de la langue bretonne, une langue menacée d'extinction selon l'UNESCO, qu'elle ne figure pas dans les 130 langues offertes par Google Traduction . Grâce à l'intelligence artificielle, Google prévoit d'y mettre les 1000 langues les plus utilisées sur cette terre. Le breton y figurera-t-il ? that is the question.. Même chose pour META qui a sélectionné 200 langues à sauver et où le breton est absent. L'entreprise Alphabet est propriétaire à la fois de Goggle translate et de Youtube d'où l'importance de sous-titrer en breton toutes les vidéos que les Breton(ne)s envoient car ces sous-titrages seront ou sont déjà utilisés pour la construction de traducteurs basés sut l'IA. Alphabet est aussi propriétaire de gmail qui a 1,5 milliard d'utilisateurs et envoie environ 300 milliards de courriers numériques chaque jour, une gigantesque base de données numériques potentiels, y compris des mails écrits en breton. Ces mails sont dans le domaine privé mais pourront sans doute un jour être utilisés par les traducteurs de google après une certaine date.

Selon la linguiste du CNRS Mélanie Jouitteau, un des facteurs qui ont déterminé l'invisibilité du breton est l'absence de [[corpus]] libre de droits conséquents, ce qui est souvent le cas pour les langues minoritaires. [ Voir la vidéo de sa conférence ] tenue l'été dernier au Festival Interceltique de Lorient. Le wikipédia en breton est devenu en quelque sorte une rare perle pour le futur de cette langue car totalement libre de droits. Le manque d'interfaces entre la langue bretonne et le monde anglo-saxon où se trouvent les grandes entreprises internet jouerait aussi un rôle défavorable.

La région

Diverses initiatives ont vu le jour pour essayer de pallier ces différents problèmes. Ofis Public ar brezhoneg continue à améliorer son traducteur en ligne mais son corpus breton ne semble pas assez large. Dans son budget 2024, la Région prévoit aussi des fonds sur le sujet : « Un portail internet sera créé pour une meilleure visibilité des créations, la production audiovisuelle sera fortement développée, un nouveau dispositif aidera au sous-titrage des longs-métrages et une politique sera mise en place en faveur du développement numérique de la langue » .

Le CNRS

Mélanie Jouitteau a entrepris un énorme travail listant les ressources disponibles pour le breton appelées ARBRES et présente aussi TAL le traitement automatique des langues . ARBRES est l'acronyme breton de Atlas Rannyezhoù ar BREzhoneg: Sintaks, Atlas syntaxique des dialectes du breton. Ce site est en développement depuis 2007 et fournit une grande grammaire du breton de presque 5.000 articles ainsi qu'un centre de ressources pour la recherche en syntaxe formelle sur la langue bretonne. Selon Loic Grobol (voir la vidéo) l'intégration des données de ARBRES dans le corpus breton est très prometteur.

Un fonds de dotation

Plus récemment, un fonds de dotation intitulé Bretagne numérique a été créé dont le but est tout simplement d'aider les projets de numérisation du breton. Il est basé à Quimper et est sous la houlette de David Lesvenan de l'association point bzh. Selon David Le Meur, coordinateur pour Bretagne numérique, il s'agit de « mettre en œuvre le breton dans des traducteurs en ligne pour développer son usage et assurer une visibilité mondiale à notre langue.» Le fonds monte en ce moment des dossiers à présenter aux mécènes potentiels afin d'aider à financer les initiatives. Il encourage des projets comme le wikipédia breton et tout projet travaillant à numériser la langue bretonne comme le projet ci-dessous.

Suite au travail d'un informaticien de Carhaix du nom de Gweltaz Duval-Guennoc, qui a repris le logiciel de transcription de l'oral à l'écrit open source VOSK pour en faire une version pour le breton appelée Anaouder, Mélanie Jouitteau ayant remarqué son travail a lancé l'idée d'une interface web. Un nouveau site est donc né ayant pour but de rassembler des outils permettant de transcrire, sous-titrer, océariser, et éventuellement traduire le breton si des corpus conséquents peuvent y être connectés, rassemblés ou même produits. Le but est de rendre ces données, sinon libres de droits, accessibles à tous, y compris les grandes entreprises américaines du numérique.

Sponsorisé par Bretagne numérique, le site translate.bzh présente un outil pour sous-titrer les vidéos en breton. Ajouter des sous-titres en breton aux vidéos en breton sur Youtube est certainement pédagogique mais est aussi essentiel pour élargir le corpus du breton . Le site contribute.bzh présente des outils pour transcrire n'importe quel enregistrement en breton y compris créer des fichiers pour l'annotation linguistique, utilisés par ELAN (EUDICO Linguistic Anotator). Il y a aussi un outil OCR (Reconnaissance optique de caractères) pour le breton. Il vaut ce qu'il vaut, et cette technologie a encore beaucoup de chemin à faire pour le breton.


Vos commentaires :
Jacki Pilon
Mercredi 26 juin 2024
En amont de la traduction, la collecte, dans sa multiplicité et dans sa diversité : projet LanguesDeBretagne.bzh, application «Accents de Bretagne ».

gg
Mercredi 26 juin 2024
Ce qui est le plus marrant c'est que gemini, le chatbot intelligent de google, parle breton, il est capable de traduire des articles entiers du breton vers le français, ou vers l'anglais, mais le breton est absent de google translate.

Anti-spam : Combien font 3 multiplié par 4 ?