Travaux de recherche à l’INRIA

 

Travaux de recherche à l’INIRIA par Malek Boualem

L’un des aspects fondamentaux du multilinguisme en informatique est « le traitement des textes et des caractères ». Lors de mon DEA (Master), en m’appuyant sur quelques travaux réalisés dans ce domaine (J.D.Becker, Winsoft, Universal Word), j’ai travaillé sur la conception et la réalisation d’un environnement d’édition de textes multilingues. Les problèmes rencontrés (et qui sont résolus de nos jours) se situaient au niveau du codage des caractères autres que les caractères latins (arabe,  hébreu, russe, chinois, etc.) et leur gestion à l’écran (notamment dans le cas d’écriture de la droite vers la gauche). J’ai participé à la mise au point d’un éditeur de textes multilingues (TE: Text Editor) qui a été par la suite transféré vers l’industrie (société GF2). Parmi les modules mis en place:

  • Analyseur de contexte pour l’identification des langues et l’application de règles spécifiques à chacune des langues (sens d’écriture, etc.) pour la saisie de textes multilingues.
  • Programme de saisie phonétique des idéogrammes chinois : basé sur la norme phonétique « Pinyin » et la norme de codage des idéogrammes « GB-2312-80 ».

Ensuite, dans le cadre de ma thèse de doctorat, je me suis intéressé à un domaine fortement lié au multilinguisme : « la traduction automatique et la traduction assistée par ordinateur ». J’ai ainsi travaillé sur la validation des modèles de traduction:

  • modèle à langage pivot (cf. GETA, B.Vauquois, C.Boitet, systèmes Ariane, Titus, etc.),
  • modèle à transfert (cf. travaux du projet Eurotra en particulier, L.Danlos).

Une étude du modèle bilingue (cf. premières versions de Systran, Salat, etc.) m’a conduit à comprendre les limites de celui-ci. Ainsi, j’ai travaillé sur un modèle « multilingue » à structure intermédiaire abstraite associant les modèles à pivot et à transfert. La validation a été faite du français vers l’arabe (langues représentatives de deux familles différentes de langues: indo-européennes et sémitiques). Bien entendu, le domaine d’application choisi (notices techniques) m’a conduit à utiliser un formalisme de représentation du langage à contexte limité et à syntaxe contrôlée. Pour la mise en place des lexiques, je me suis inspiré du modèle développé au LADL (M.Gross) et à EUROTRA que j’ai agrémenté de traits sémantiques (sémantique lexicale, cf. travaux du LIM Marseille). Pour la modélisation des grammaires utilisées (contexte libre, N.Chomsky), j’ai utilisé des automates à états finis. Enfin, pour la validation du modèle « multilingue », j’ai présenté une simulation de traduction vers le chinois à partir de la structure intermédiaire issue de l’analyse de textes sources en français (système ML-TASC: Sun, Unix/Solaris, C, X11).