Matériel de cours

  • 16/01/08 – Tour d’horizon web mining : pdf
  • 16/01/08 – Analyse d’hyperliens – HITS, PageRank : pdf
  • 16/01/08 – Séance de TD : pdf
  • 16/01/08 – Séance de TP : pdf
  • Bases de textes :
    • filtered.tgz : textes filtrés en fonction du contenu du titre de l’article et du contenu du résumé. Les meilleurs résultats d’analyse devraient être obtenus avec ces fichiers.
    • newtextes.tgz : textes semblables (mais plus à jour que la base de textes textes.tgz mais avec une structure de répertoire ayant un niveau de moins (avec des sous-répertoire ayant un nom comme <candidat>_<journal> au lieu de <candidat>/<journal>). Cette nouvelle architecture permet de mieux visualiser les relations journaux/candidats/positionnemens.