Édition des textes multilingues
Abdel-Malek Boualem, Stéphane Harié
Laboratoire Parole et Langage, Université de Provence & CNRS, 29, avenue Robert Schuman, 13621 Aix-en-Provence Cedex 1, France
Revue de l’Information Scientifique et Technique, Centre d’Etudes et de Recherche sur l’Information Scientifique et Technique, Alger, ISSN 1111-0015, Vol. 8, No 1, 1998.
http://www.webreview.dz/IMG/pdf/_Edition_des_textes_multilingues.pdf
Résumé de l’article
Dans un précédent article [BOUA95a], nous présentions les difficultés de conception et de réalisation d’outils pour l’édition et le traitement de textes multilingues. Nous mentionnions que si des solutions commençaient à se mettre en place pour des langues européennes, la conception d’outils pour d’autres familles de langues était encore à un stade peu avancé. Nous présentions le prototype d’un éditeur multilingue sur lequel nous avions précédemment travaillé [BOUA90] et que nous avions intégré dans un environnement de traduction automatique du français vers l’arabe [BOUA93]. Cependant, cet éditeur présentait des faiblesses au niveau du codage des caractères et des documents, de l’incompatibilité des formats d’échanges des données textuelles et au niveau de l’environnement logiciel non portable. Cet article développe les difficultés de la mise en place d’outils pour le traitement de textes multilingues et présente l’éditeur MtScript développé dans le cadre du projet MULTEXT [MUL96]. MtScript permet de combiner de nombreux types d’écritures dans un même document : latin, arabe, cyrillique, grec, hébreu, chinois, japonais, coréen, etc. (figure 1). Les fonctions d’édition de MtScript permettent d’insérer ou de supprimer des zones de texte même en écritures à sens opposés. De plus, MtScript permet d’identifier les langues utilisées dans un texte multilingue, de leur associer des règles de saisie au clavier et de traiter différents types de codage des caractères (sur un ou plusieurs octets). Enfin, MtScript a été développé dans un environnement portable (C, Tcl/Tk) et est basé sur les normes internationales de codage. La version 1.1 de MtScript (binaire pour Solaris et Linux) peut être téléchargée gratuitement sur le web à l’URL : http://www.lpl.univ-aix.fr/projects/multext/MtScript/