LIF - Résumé de séminaire

Événements
Laboratoire d'Informatique Fondamentale de Marseille

Résumé de séminaire

Séminaire du LIF
Jeudi 12 Octobre à 14h - Luminy, Salle de Réunion
Didier Schwab
Universiti Sains Malaysia, Penang, Malaisie
Approche hybride - lexicale et thématique - pour la modélisation, la détection et l'exploitation des fonctions lexicales en vue de l'analyse sémantique de texte

Mots-clés :

Représentation informatique du sens, analyse sémantique, fonctions lexicales, vecteurs conceptuels, réseaux lexicaux, base sémantique lexicale, architecture multi-agent, algorithmes à colonies de fourmis

Résumé :

De nombreuses applications hétérogènes du traitement automatiques des langues comme la recherche d'information, la classification de documents, le résumé automatique ou la traduction automatique peuvent être largement améliorées grâce à une analyse sémantique que l'on peut considérer de façon non limitative comme la résolution de cinq types d'ambiguïtés : (1) les ambiguïtés lexicales ; (2) les références pour lesquelles il s'agit d'identifier l'entité à laquelle certains mots du texte font référence (anaphore, identité) ; (3) les rattachements prépositionnels c.-à-d. trouver à quelle tête syntaxique se rattache un syntagme prépositionnels ; (4) les chemins d'interprétation qui concernent les résolutions d'ambiguïtés compatibles entre elles et (5) celle qui nous intéressera le plus ici, l'instanciation des fonctions lexicales.

De plus, tous ces phénomènes peuvent aider à la production d'une représentation calculable du sens du texte. Nous représentons les aspects thématiques des documents textuels (documents, paragraphes, syntagmes, etc.) par des vecteurs conceptuels, un formalisme pour la projection de la notion linguistique de champ sémantique dans un espace vectoriel. À partir d'un ensemble de concepts élémentaires, il est possible de construire des vecteurs pour lesquels chaque composante correspond à une idée (idée de vie, d'existence, de biologie, d'histoire, etc.). Les vecteurs sont appris, à partir d'un ensemble initial manuellement indexé, sur des dictionnaires à usage humain. Cet apprentissage se fait ainsi grâce à une analyse sémantique.

Utilisée à la fois pour l'apprentissage et l'exploitation des vecteurs conceptuels, l'analyse sémantique de texte est centrale à nos recherches. L'amélioration qualitative du processus d'analyse entraîne celle des vecteurs. En retour, cette meilleure pertinence a un effet positif sur l'analyse. Parmi les différentes voies à explorer pour obtenir ce cercle vertueux, l'une des pistes les plus intéressantes semble être la découverte puis l'exploitation des relations lexicales entre les mots du texte. Ces relations, parmi lesquelles la synonymie, l'antonymie, l'hyperonymie, la bonification ou l'intensification, sont modélisables sous la forme de fonctions lexicales. Énoncées essentiellement dans un cadre de production par Igor Mel'cuk, nous cherchons, dans cette thèse, à les adapter à un cadre d'analyse. Nous introduisons ici deux classes de Fonctions Lexicales d'Analyse. Les premières, les FLA de construction permettent de fabriquer un vecteur conceptuel à partir des informations lexicales disponibles. Les secondes, les FLA d'évaluation permettent de mesurer la pertinence d'une relation lexicale entre plusieurs termes. Ces dernières sont modélisables grâce à des informations thématiques (vecteurs conceptuels) et/ou grâce à des informations lexicales (relations symboliques entre les objets lexicaux).

Les informations lexicales sont issues de la base lexicale sémantique dont nous introduisons l'architecture à trois niveaux d'objets lexicaux (item lexical, acception, lexie). Elles sont matérialisées sous la forme de Relations Lexicales Valuées qui traduisent la probabilité d'existence de la relation entre les objets. L'utilité de ces relations a pu être mis en évidence pour l'analyse sémantique grâce à l'utilisation du paradigme des algorithmes à fourmis. Le modèle introduit dans cette thèse, utilise à la fois les vecteurs conceptuels et les relations du réseau lexical pour résoudre les phénomènes présentés.

Tous nos outils ont été implémentés en Java. Ils reposent sur Blexisma (Base LEXIcale Sémantique Multi-Agent) une architecture multi-agent dont l'objectif est d'intégrer tout élément lui permettant de créer, d'améliorer et d'exploiter une ou plusieurs Bases Lexicales Sémantiques. Les expériences menées ont montré la faisabilité de cette approche, sa pertinence en termes d'amélioration globale de l'analyse et ouvert des perspectives de recherches fort intéressantes.

[css] [GenSem] [xhtml] Direction : François Denis - Secrétariat de direction : Martine Quessada
Tel. 04 91 11 36 00 - Fax : 04 91 11 36 02 - Mel. Martine.Quessada@cmi.univ-mrs.fr

webmaster - La dernière mise à jour de cette page date du 04 septembre 2008