Construction dÕun corpus parall¸le fran¨ais-comorien en utilisant de la TA fran¨ais-swahili

Moneim Abdourahamane1, 2 Christian Boitet1,2 Valˇrie Bellynck1,3 Lingxiao Wang1, 2
Hervˇ Blanchon1, 2

(1) LIG, campus, 38041 Grenoble cedex 9, France

(2) UGA, adresse, 38401 Saint Martin-dÕH¸res, France

(3) G-INP, 47 av. Fˇlix Viallet, 38000 Grenoble, France

prenom.nom@imag.fr

 

Rˇsumˇ

Le comorien ou shikomori est une macro-langue constituˇe de 4 dialectes (ngazidja, maore, mwali, ndzuani) tr¸s proches entre eux, et assez proches du swahili. Il est tr¸s peu dotˇ au niveau des ressources linguistiques informatisˇes, nÕayant ni corpus, ni dictionnaires, ni outils de correction ou de traduction. Il nÕest donc a priori pas possible de construire efficacement un corpus parall¸le, comme on sait le faire par TA suivie de post-ˇdition (PE) interactive : en fran¨ais-chinois, 17 mn/page avec Google Translate (GT), 12 mn/page avec le syst¸me de TA MosesLIG.fr-zh en utilisant SECTra/iMAG. Nous sommes cependant en train dÕy arriver en post-ˇditant des prˇ-traductions en swahili produites par GT. Le swahili est utilisˇ ici non comme langue pivot, mais comme langue auxiliaire. Nous avons maintenant un corpus de bonne qualitˇ fran¨ais-ngazidja formˇ de 14 articles du journal Alwatwan (366 segments, 6754 mots, 27 pages standard). Nous extrayons en parall¸le des correspondances lexicales bilingues. La premi¸re application visˇe est la lecture active du fran¨ais pour des locuteurs du comorien ; elle utilisera le dictionnaire et le syst¸me de TA dˇrivˇs respectivement de la base lexicale et du corpus, en croissance.

 

Mots-clˇs : construction de corpus parall¸le, fran¨ais-comorien, swahili, langue auxiliaire