Construction dÕun corpus parall¸le fran¨ais-comorien en utilisant de la TA fran¨ais-swahili Moneim
Abdourahamane1, 2 Christian Boitet1,2 Valˇrie Bellynck1,3
Lingxiao Wang1, 2 (1) LIG, campus, 38041 Grenoble cedex 9, France (2) UGA, adresse, 38401 Saint Martin-dÕH¸res, France (3) G-INP,
47 av. Fˇlix Viallet, 38000 Grenoble, France |
Rˇsumˇ
Le comorien ou shikomori
est une macro-langue
constituˇe de 4 dialectes (ngazidja, maore, mwali, ndzuani) tr¸s
proches entre eux, et assez proches du swahili. Il est tr¸s peu dotˇ au niveau des ressources linguistiques
informatisˇes, nÕayant ni corpus, ni dictionnaires, ni outils de correction ou
de traduction. Il nÕest donc a priori
pas possible de construire efficacement un corpus parall¸le, comme on sait le
faire par TA suivie de post-ˇdition (PE) interactive : en
fran¨ais-chinois, 17 mn/page avec Google Translate (GT), 12 mn/page
avec le syst¸me de TA MosesLIG.fr-zh en utilisant SECTra/iMAG. Nous sommes
cependant en train dÕy arriver en post-ˇditant des prˇ-traductions en swahili produites
par GT. Le swahili est utilisˇ ici non comme langue pivot, mais comme langue auxiliaire. Nous avons maintenant un corpus de
bonne qualitˇ fran¨ais-ngazidja formˇ de 14 articles du journal Alwatwan (366
segments, 6754 mots, 27 pages standard). Nous extrayons en parall¸le des
correspondances lexicales bilingues. La premi¸re application visˇe est la
lecture active du fran¨ais pour des locuteurs du comorien ; elle utilisera
le dictionnaire et le syst¸me de TA dˇrivˇs respectivement de la base lexicale
et du corpus, en croissance.
Mots-clˇs :
construction de corpus parall¸le, fran¨ais-comorien,
swahili, langue auxiliaire