Une plateforme pour recueillir la parole spontanée en alsacien
Les langues de France sont peu présentes dans les technologies vocales et numériques. Pour y remédier, l’Institut national de recherche en sciences et technologies du numérique (Inria) a lancé mi-octobre une plateforme de collecte de la parole spontanée dans le cadre du projet Corpus et outils pour les langues de France (Colaf). Première langue régionale à être recueillie : l’alsacien, en partenariat avec des chercheurs de dialectologie alsacienne du laboratoire Linguistique, langues, parole (Lilpa - Unistra) et l’équipe Multispeech (Inria / Université de Lorraine / CNRS), spécialiste des technologies vocales et de l’intelligence artificielle.
Breton, occitan, alsacien, langue des signes, créole… Trop souvent, les langues régionales ou minoritaires sont absentes des grandes bases de données utilisées pour entraîner les intelligences artificielles
, souligne Virginie Zint, vice-présidente Numérique et simplification organisationnelle à l’Université de Strasbourg.
L’objectif du projet Colaf : constituer des corpus textuels et oraux dans toutes les langues parlées en France pour entrainer un système et développer des outils de reconnaissance et de synthétisation de la parole. Une recherche collaborative qui met l’intelligence artificielle au service du vivant, de la mémoire et de la langue
, poursuit Virginie Zint.
46% des locuteurs actifs
La première collecte à être lancée est celle de l’alsacien. « Ce n’est pas seulement parce qu’on est premier dans l’ordre alphabétique. Nous commençons par l’alsacien parce qu’il est parlé par beaucoup de locuteurs (46% de locuteurs actifs d’après une enquête menée en 2022*), mais est peu doté en termes de données disponibles », souligne Pascale Erhart, chercheuse au laboratoire Lilpa, qui précise que l’Université de Strasbourg est le seul établissement d’enseignement supérieur à proposer à la fois une formation diplômante et une recherche dédiée à l’alsacien.
Comment ça marche ? Tout un chacun peut créer un compte sur une plateforme dédiée, accessible sur mobile et en alsacien. Les participants sont ensuite invités à répondre à différentes questions de façon spontanée, créant une forme de discussion. Ils peuvent également choisir de transcrire leurs contributions ou celles d’un autre participant. Voire vérifier des transcriptions.
Avoir accès à la variabilité de la langue
Tous les Alsaciens ne parlent pas la langue de la même façon. Nous devons avoir un maximum de personnes qui participent pour entrainer l’intelligence artificielle le mieux possible dans la reconnaissance de cette variabilité
, rapporte Slim Ouni, responsable de l’équipe Multispeech, qui évoque un socle minimum de 100 heures d’enregistrements.
Des annonces dans le tram en alsacien
Les données collectées, disponibles en accès ouvert, seront utilisables par tous. Elles pourraient par exemple permettre de faire des annonces dans le tram en alsacien ou encore d’avoir des applications dans cette langue. Si tout se passe bien, d’ici un an ou deux, votre téléphone parlera alsacien
, sourit Sam Bigeard, ingénieur de recherche à l'Inria.
Nous espérons que les gens vont donner leur voix pour leur langue
, glisse Pascale Erhart. C’est une manière concrète de relier science, territoire et citoyenneté : en enregistrant sa voix, on fait œuvre de transmission et d’avenir
, conclut Virginie Zint.
Mots-clés
Mots-clés associés à l'article :