Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations

Fiche de la thèse sur le site Thèses en ligne
Lien direct vers la version PDF

Résumé

Pour modéliser au mieux les phénomènes linguistiques dans les systèmes de traitement automatique des langues (traduction, analyse, etc.), il faut disposer de ressources de qualité. Or, les ressources existantes sont souvent incomplètes et ne permettent pas de traiter correctement les données.

Cette thèse s’intéresse à l’acquisition de connaissances linguistiques, plus précisément à leur extraction à partir de corpus. Nous étudions en particulier le problème des collocations, ces couples de termes dont l’un est choisi en fonction de l’autre pour exprimer un sens particulier (comme « pluie battante » où « pluie » exprime l’intensification).

Pour permettre l’acquisition de données à grande échelle, il faut la rendre facile à réaliser de manière automatique, et simple à paramétrer par des linguistes aux connaissances limitées en programmation ; cela nécessite une modélisation adaptée et précise des données et des processus.

Nous avons réalisé et décrivons MuLLinG, modèle de graphes linguistiques multiniveau, où chaque niveau représente l’information d’une manière différente,et les opérations de manipulation de ces graphes.

Ce modèle permet de représenter et traiter divers types de ressources. En effet, les opérations associées ont été écrites pour être les plus génériques possibles : elles sont indépendantes de ce que peuvent représenter les noeuds et les arcs du graphe, et de la tâche à réaliser. Cela permet à notre modèle, mis en oeuvre et utilisé pour plusieurs expérimentations (entre autres l’extraction de collocations), de voir un processus parfois complexe d’extraction de connaissances linguistiques comme une succession d’opérations simples de manipulation de graphes.

Mots-clés

extraction, acquisition de connaissances, modèle de graphe, manipulation de graphes, généricité, collocations

Université Joseph Fourier (Grenoble 1) - École doctorale MSTII

Direction

Gilles Sérasset & Christian Boitet (GETALP, Laboratoire d'Informatique de Grenoble) 

Soutenance

Le 24 septembre 2009 à Grenoble (Maison Jean Kuntzmann)
Transparents de la soutenance

Jury

 Catherine Berrut  Présidente  Université Joseph Fourier (Grenoble 1)
 Yves Lepage  Rapporteur  Université de Caen Basse-Normandie
 Denis Maurel  Rapporteur  Université François Rabelais (Tours)
 Eric Wehrli  Rapporteur  Université de Genève
 Bruno Gaume  Examinateur  ERSS -  Université de Toulouse-Le Mirail
 Christian Boitet  Directeur  Université Joseph Fourier (Grenoble 1)
 Gilles Sérasset  Co-directeur  Université Joseph Fourier (Grenoble 1)