Minh Tien Nguyen - Detection of Automatically Generated Texts

08:00
Mardi
3
Avr
2018
Intervenant : 
Minh Tien Nguyen
Équipes : 

Jury :

  • Catherine Berrut, professeur, Université Grenoble Alpes , président
  • Jacques Savoy, professeur, Université de Neuchâtel , rapporteur
  • Guillaume Cabanac, maître de conférences, Université Toulouse 3 - Paul Sabatier, rapporteur
  • Sylvie Calabreto, professeur, LIRIS-INSA Lyon , membre
  • Cyril Labbé, maître de conférences, Université Grenoble Alpes, directeur de thèse
  • Jeff Iezzi, Springer-Nature, Berlin, invité

 

Le texte généré automatiquement a été utilisé dans de nombreuses occasions des buts différents. Il peut simplement passer des commentaires générés dans une discussion en ligne à une tâche beaucoup plus malveillante, comme manipuler des informations bibliographiques. Ainsi, cette thèse introduit d’abord différentes méthodes pour générer des textes libres ayant trait un certain sujet et comment ces textes peuvent être utilisés. Par conséquent, nous essayons d’aborder plusieurs questions de recherche. La première question est comment et quelle est la meilleure méthode pour détecter un document entiérement généré.
Ensuite, nous irons un peu plus loin et montrer la possibilité de détecter quelques phrases ou un petit paragraphe de texte gnéré automatiquement en proposant une nouvelle méthode pour calculer la similarité des phrases en utilisant leur structure grammaticale. La dernire question est comment détecter un document généré automatiquement sans aucun échantillon, ceci est utilisé pour illustrer le cas d’un nouveau générateur ou d’un générateur dont il est impossible de collecter des échantillons dessus.
Cette thèse étudie également l’aspect industriel du développement. Un aperu simple d’un flux de travail de publication d’un éditeur de premier plan est présenté. À partir de là, une analyse est effectuée afin de pouvoir intégrer au mieux notre méthode de détection dans le flux de production.
En conclusion, cette thèse a fait la lumière sur de multiples questions de recherche importantes concernant la possibilité de détecter des textes générés automatiquement dans différents contextes. En plus de l’aspect de la recherche, des travaux d’ingénierie importants dans un environnement industriel réel sont également ralisés pour démontrer qu’il est important d’avoir une application réelle pour accompagner une recherche fondamentale.