Othman Zennaki - Construction automatique d'outils et de ressources linguistiques à partir de corpus parallèles

14:00
Lundi
11
Mar
2019
Intervenant : 
Othman Zennaki
Équipes : 
Mots clés : 

 

Cette soutenance aura lieu Lundi 11 Mars 2019 à 14h00
Adresse de la soutenance : CEA LIST - Site NANO INNOV, Avenue de la Vauve, Bâtiment 862, Amphithéâtre 33, 91120 Palaiseau 

Jury :

  • Laurent  Besacier, professeur, Universite Grenoble Alpes, directeur de thèse
  • Reinhard Rapp, professeur, Johannes Gutenberg-Universität Mainz, rapporteur
  • Mounir  Zrigui, professeur, Universite de Monastir - Tunisie, rapporteur
  • Nasredine  Semmar, ingenieur de recherche, CEA List, examinateur
  • Sophie  Rosset, directrice de recherche,  LIMSI CNRS, examinateur

Cette thèse porte sur la construction automatique d’outils et de ressources pour l’analyse linguistique de textes des langues peu dotées. Nous proposons une approche utilisant des réseaux de neurones récurrents (RNN - Recurrent Neural Networks) et n'ayant besoin que d'un corpus parallèle ou mutli-parallele entre une langue source bien dotée et une ou plusieurs langues cibles moins bien ou peu dotées. Ce corpus parallèle ou mutli-parallele est utilisé pour la construction d'une représentation multilingue des mots des langues source et cible. Nous avons utilisé cette représentation multilingue pour l’apprentissage de nos modèles neuronaux et nous avons exploré deux architectures neuronales : les RNN simples et les RNN bidirectionnels. Nous avons aussi proposé plusieurs variantes des RNN pour la prise en compte d'informations linguistiques de bas niveau (informations morpho-syntaxiques) durant le processus de construction d'annotateurs linguistiques de niveau supérieur (SuperSenses et dépendances syntaxiques). Nous avons démontré la généricité de notre approche sur plusieurs langues ainsi que sur plusieurs tâches d'annotation linguistique. Nous avons construit trois types d'annotateurs linguistiques multilingues: annotateurs morpho-syntaxiques, annotateurs en SuperSenses et annotateurs en dépendances syntaxiques, avec des performances très satisfaisantes. Notre approche a les avantages suivants : (a) elle n'utilise aucune information d'alignement des mots, (b) aucune connaissance concernant les langues cibles traitées n'est requise au préalable (notre seule supposition est que, les langues source et cible n'ont pas une grande divergence syntaxique), ce qui rend notre approche applicable pour le traitement d'un très grand éventail de langues peu dotées, (c) elle permet la construction d'annotateurs multilingues authentiques (un annotateur pour N langages).