Modèle de document pour TALN 20011

Construction d’un corpus parallèle français-comorien en utilisant de la TA français-swahili

Moneim Abdourahamane^{1, 2} Christian Boitet^1,2 Valérie Bellynck^1,3 Lingxiao Wang^{1, 2}
Hervé Blanchon^{1, 2}

(1) LIG, campus, 38041 Grenoble cedex 9, France

(2) UGA, adresse, 38401 Saint Martin-d’Hères, France

(3) G-INP, 47 av. Félix Viallet, 38000 Grenoble, France

Résumé

Le comorien ou shikomori est une macro-langue constituée de 4 dialectes (ngazidja, maore, mwali, ndzuani) très proches entre eux, et assez proches du swahili. Il est très peu doté au niveau des ressources linguistiques informatisées, n’ayant ni corpus, ni dictionnaires, ni outils de correction ou de traduction. Il n’est donc a priori pas possible de construire efficacement un corpus parallèle, comme on sait le faire par TA suivie de post-édition (PE) interactive : en français-chinois, 17 mn/page avec Google Translate (GT), 12 mn/page avec le système de TA MosesLIG.fr-zh en utilisant SECTra/iMAG. Nous sommes cependant en train d’y arriver en post-éditant des pré-traductions en swahili produites par GT. Le swahili est utilisé ici non comme langue pivot, mais comme langue auxiliaire. Nous avons maintenant un corpus de bonne qualité français-ngazidja formé de 14 articles du journal Alwatwan (366 segments, 6754 mots, 27 pages standard). Nous extrayons en parallèle des correspondances lexicales bilingues. La première application visée est la lecture active du français pour des locuteurs du comorien ; elle utilisera le dictionnaire et le système de TA dérivés respectivement de la base lexicale et du corpus, en croissance.

Mots-clés : construction de corpus parallèle, français-comorien, swahili, langue auxiliaire