Zhang Ying - Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés

12:00
Mardi
28
Juin
2016
Organisé par : 
Zhang Ying
Intervenant : 
Zhang Ying
Équipes : 

Jury :

  • Ahmed LBATH, professeur, Université Grenoble Alpes, président
  • Denis MAUREL, professeur, Université de Tours, rapporteur
  • Alain POLGUÈRE, professeur, Université de Nancy, rapporteur
  • Antoine CHALVIN, professeur, INaLCO, examinateur
  • Mathieu LAFOURCADE, maître de conférences, Université Montpellier 2, examinateur
  • François BROWN DE COLSTOUN, président, Lingua & Machina, invité
  • Christian BOITET, professeur, Université Grenoble Alpes, directeur de thèse
  • Valérie  BELLYNCK, maître de conférences, Grenoble INP Pagora, codirectrice de thèse
  • Mathieu MANGEOT, maître de conférences, Université de Savoie, codirecteur de thèse

 

Réalisation technique : Antoine Orlandi | Tous droits réservés

Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M). 

Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques. 
Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI-2, dont les "liens riches", nous avons transformé PIVAX-1 en PIVAX-2, et réactivé le projet GBDLEX-UW++ commencé lors du projet ANR TRAOUIERO, en réimportant toutes les données (multilingues) supportées par PIVAX-1, et en les rendant disponibles sur un serveur ouvert. 
Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES. Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREATDICO, LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECTRA, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES.
——————————————————————摘要——————————————————————
 
我们的研究领域是计算词典编纂,不仅仅是只关注对MT(机器翻译)和MAHT(机助人译)等IT相关的词汇资源支持,也是在工业背景下(与L&M合作的CIFRE论文),支持其资源的词汇数据库的语言学体系的架构建模。
我们从该领域的想法的演变史开始研究,从传统字典的信息化到真正的“词汇数据库” 平台的建立, 例如JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] 和JIBIKI-2 [Zhang, Y. et al., 2014]。我们的出发点是PIVAX-1系统 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009],一个词汇数据库,服务于异质的自动翻译系统,通过中间(pivot)词汇来支持多个卷(volume)的自然的或人工的(如UNL)“词汇空间”。考虑到工业背景,我们把我们的研究集中在IT和词典编纂的某些问题上。
为了扩大规模,也为了享受到JIBIKI-2支持的新功能,即“复杂链接”,我们把PIVAX-1改造为PIVAX-2,并且在ANR TRAOUIERO项目中重新激活GBDLEX-UW++项目,并重新导入PIVAX-1中的所有(多语言)数据,并使其在开放的服务器上可用。
由于L&M的一个需求涉及到首字母缩略词,我们扩展了PIVAX 的宏观结构,用于整合“代词素(prolexèmes) ”类型的卷,如PROLEXBASE [Tran, M. & Maurel, D., 2006] 中所做的那样。我们也展示了如何扩展新的PIVAX的宏观结构以满足新的需求,如在INNOVALANGUES项目中。最后,我们创建了一个“词形还原中间件”,LEXTOH,它允许调用多个形态分析器或词形还原器,然后整合和过滤它们的结果。与另一个新的创建字典的工具,CREATDICO,相结合,LEXTOH允许为IMAG/SECTRA系统中,一个正在进行在线“后编辑”的句子或段落文字,在其侧创建一个相对应的“小字典”,这实现了在[Huynh, C.-P., 2010]中所预期的积极词汇辅助功能。我们也能使用该工具,用于创建适用于摩西的要素自动翻译系统所需的“要素”平行语料。