La conférence de presse s'est tenue au Club de la presse de Bretagne à Rennes, en présence de M. Paul Molac, président de l’OPLB et M. Christian Troadec, vice-président en charge des Langues de Bretagne et Bretons du Monde au Conseil régional de Bretagne.
L’OPLB vient de mettre en place un portail dédié regroupant des données numériques publiques et différents outils qui représentent une véritable avancée pour la langue bretonne. Ce service est gratuit et accessible à tous ici
Les ressources suivantes sont dès à présent accessibles sur le portail :
> Le dictionnaire historique Meurgorf contient plus de 60 000 entrées. Il est enrichi en continu. Plus de 150 000 exemples historiques issus du corpus lexical breton sont placés dans leur contexte, présentés d’une manière claire et chronologique. Sa nouvelle version permet de lire la phonétique d’un mot et d’écouter sa prononciation, mais aussi de retrouver facilement les mots parents ou leurs formes fléchies par exemple. Le moteur de recherche intégré facilite la recherche de mots par catégorie grammaticale ou par leur présence dans telle ou telle œuvre en langue bretonne.
> La base de données toponymiques KerOfis comprend plus de 52 000 fiches, mises à jour quotidiennement par le service Patrimoine linguistique et signalisation de l'OPLB. Elle permet de disposer en premier lieu de la forme correcte des toponymes bretons. Ceux-ci sont désormais localisés sur la carte OpenStreetMap en breton. Les formes anciennes et les formes bretonnes attestées sont également présentées, aux côtés d'autres informations telles que l'origine historique ou la signification. La base terminologique TermOfis du centre terminologique TermBret de l’OPLB contient plus de 86 000 termes classés par domaine.
> En 2022, l’OPLB lance le chantier d’un nouveau traducteur automatique plus performant, après un premier projet lancé en 2009 à partir du système Open Source « Apertium ». Le traducteur automatique basé sur l’intelligence artificielle est désormais capable de traduire à la fois dans les sens breton-français et français-breton. Il a été réalisé par Alan Entem, ingénieur IA. Les avancées techniques permettent aujourd’hui de développer des traducteurs automatiques à base de réseaux de neurones entraîné sur des corpus bilingue de taille relativement restreinte (environ 100 000 paires de phrases pour le breton). Les textes produits sont plus naturels et plus précis, et la qualité s’améliore à mesure que le corpus s'enrichit.
> Le projet de synthèse de la parole du breton lancé par l’OPLB en 2020 avec l’aide de la Région Bretagne et de la DGLFLF (Délégation générale à la langue française et aux langues de France) a été réalisé par l’équipe Expression du laboratoire de l’IRISA pour la réalisation technique, avec un budget de 200 000€. L’OPLB a prêté une attention particulière à la qualité de la prononciation et au respect de l’accent tonique afin que cet outil puisse être utilisé comme référence pour l’apprentissage de la langue. Ce système de synthèse vocale, basé sur l’intelligence artificielle, permettra également de développer d’autres outils afin que l’on puisse entendre plus de breton dans la vie quotidienne (GPS, messages vocaux dans les transports en commun, ascenseurs, répondeurs…). Quatre voix sont actuellement disponibles : deux voix de femmes et deux voix d'hommes.
> Les corpus écrits et oraux constituent l’une des ressources de base dans le domaine du traitement automatique du langage naturel. Le corpus bilingue français-breton de l’OPLB utilisé actuellement contient 64 000 phrases, constitué d’une partie des mémoires de traduction de l’OPLB. Le corpus audio issu du projet de synthèse vocale en partenariat avec l'IRISA contient environ 50 heures d’enregistrement en breton. D’autres corpus libres de droits sont également présents sur le portail (textes, enregistrements audios, etc.).
Travailler sur la qualité des ressources, notamment des corpus monolingues et bilingues de référence, permettra d’améliorer la qualité du système de traducteur automatique (statistique, neuronal, hybride) et de travailler sur les nouvelles technologies de l’intelligence artificielle (reconnaissance vocale, agent conversationnel comme ChatGPT).
> D’autres outils sont accessibles sur le portail : un phonétiseur afin de transcrire des phrases en breton dans l'alphabet phonétique international, un normaliseur qui permet de transposer des éléments comme des chiffres ou des symboles spéciaux en mots lisibles en breton, un syllabifieur qui découpe une phrase en syllabes et prévoit la position de l'accent tonique.
Le portail numérique va continuer d’évoluer en améliorant la performance des outils actuels et en développant de nouveaux outils et de nouvelles ressources au fur et à mesure des développements informatiques.
Version en breton ici
■