Lingxiao Wang - Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois.

13:00
Monday
14
Dec
2015
Organized by: 
Lingxiao Wang
Speaker: 
Lingxiao Wang
Teams: 

 

Composition du jury

  • Catherine BERRUT, professeur, Université Joseph Fourier, LIG, présidente/examinateur
  • Xiaodong SHI, professeur, Université de Xiamen, rapporteur
  • Eric WEHRLI, professeur, Université de Genève, rapporteur
  • Hong-Thai  NGUYEN, ingénieur de recherche, DHATIM, examinateur
  • Jean-Pierre CHEVALLET, maître de conférences, Université Pierre Mendès, LIG, examinateur
  • François BROWN DE COLSTOUN, président société Lingua & Machina, examinateur
  • Christian BOITET, professeur, Université Joseph Fourier, LIG, directeur de thèse
  • Valérie  BELLYNCK, maître de conférences, Grenoble INP Pagora, codirectrice de thèse
 

 

Réalisation technique : Antoine Orlandi | Tous droits réservés

Cette thèse, effectuée dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amélioration de corpus multilingues par traduction automatique (TA) et post-édition contributive (PE). Des améliorations fonctionnelles et techniques ont été apportées aux logiciels SECTRA_W et IMAG, et on a progressé vers une définition générique de la structure d'un corpus multilingue, multi-annoté et multimédia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des méta-segments. Cette partie a été validée par la création de bons corpus bilingues français-chinois, l'un d'eux résultant de la toute première application à la traduction littéraire.

Une seconde partie, initialement motivée par un besoin industriel, a consisté à construire des systèmes de TA de type Moses, spécialisés à des sous-langages, en français↔chinois, et à étudier la façon de les améliorer dans le cadre d'un usage en continu avec possibilité de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopération avec l'université de Xiamen, on a pu démontrer l'intérêt de l'apprentissage incrémental en TA statistique, sous certaines conditions, grâce à une expérience qui s'est étalée sur toute la thèse.
 
La troisième partie est consacrée à des contributions et mises à disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et résultent de l'exploitation de la collection CLEF-IP 2011 de 1,5 M de brevets partiellement multilingues. De grosses mémoires de traductions en ont été extraites (17,5 M segments), 3 systèmes de TA en ont été tirés, et un site Web de support à la RI multilingue sur les brevets a été construit. On décrit aussi la réalisation en cours de JIANDAN-EVAL, une plate-forme de construction, déploiement et évaluation de systèmes de TA.
 

 此论文获得了CIFRE奖学金,并且作为ANR Traouiero项目的延伸,首先通过机器翻译(traduction automatique)和后编辑(post-édition)的方法,创建,扩展和完善多语种语料库。 针对SECTra和iMAG软件产品做了功能和技术上的改进,并且在结构上推进了对多语种,多元注释和多媒体语料库的广义定义,其中包含了常规文档,伪文档和元段的定义。 这部分已通过建立良好质量的法汉双语语料库验证,该语料库中的一部分语料是第一次把后编辑应用到文学翻译中获得的。

第二部分,由最初工业领域对机器翻译的需求出发,致力于构建摩西机器翻译系统,针对法语↔汉语专业领域子语言,研究通过使用连续的后编辑方法改进机器翻译质量的可能性。 在针对 LIG 网站的内部项目和与厦门大学合作的项目(TABE-FC)中,我们通过论文中所阐述的实验,证明了在一定条件下,增量训练对统计机器翻译系统的价值。
论文的第三部分是专门讲述在计算机支持和语言资源方面的贡献。主要贡献是在欧盟项目COST MUMIA中,对CLEF-IP 2011语料库中150万部分平行多语种专利语料库的处理结果。 包括大翻译记忆的提取(约1750万句对),三个机器翻译系统的训练,以及构建支持多语言专利信息查找的网站。我们还阐述了正在构建中的 JianDan-eval系统,一个用于构建,部署,评估机器翻译系统的平台。