Résumé de séminaire


Séminaire du LIM (LIF et LSIS)
Mardi 3 avril à 13h30 - CMI, Salle de séminaire
François DENIS
L.I.F.L. - GRAPPA, Université de Lille 3
Apprentissage à partir de données diversement étiquetées - Application au Data Mining


Résumé :

Au coeur de la plupart des méthodes de fouilles de données, on trouve des algorithmes d'apprentissage supervisé dont l'entrée est constituée d'un échantillon d'exemples supposés représentatifs de la population étudiée. Chaque exemple est un couple <description, étiquette> et l'objectif est de trouver une fonction associant une étiquette à une description de la manière la plus conforme possible aux observations faites et à venir. La qualité de l'apprentissage dépend très nettement du nombre de données disponibles. Or il se trouve que ces données sont souvent rares ou coûteuses à collecter. En revanche, on dispose souvent de données largement disponibles (exemples sans étiquettes, d'une seule classe, ... ) surement porteuses d'information sur la fonction à inférer mais que les algorithmes classiques n'exploitent pas.

D'où le programme de recherche naturel consistant à inventer de nouveaux algorithmes ou à adapter des algorithmes classiques de façon qu'il puissent prendre en compte toutes ces données. Des résultats théoriques prouvent que cette approche est fondée et qu'elle peut concerner une large classe d'algorithmes utilisés en Fouille de Données : les algorithmes d'apprentissage par requêtes statistiques, dont font partie C4.5, les classifieurs naïf de Bayes, ... Des expériences menées sur des données de l'UCI, jeu d'essai classique dans le domaine, permettent d'étudier et d'analyser pratiquement le gain réalisé.


Références :

Ma page web : http://www.grappa.univ-lille3.fr/~denis


[css]   [GenSem] [xhtml] Direction : François Denis - Secrétariat de direction : Martine Quessada
Tel. 04 91 11 36 00 - Fax : 04 91 11 36 02 - Mel. Martine.Quessada@cmi.univ-mrs.fr

webmaster - La dernière mise à jour de cette page date du 04 septembre 2008