filtered.tgz : textes filtrés en fonction du contenu du titre de l’article et du contenu du résumé. Les meilleurs résultats d’analyse devraient être obtenus avec ces fichiers.
newtextes.tgz : textes semblables (mais plus à jour que la base de textes textes.tgz mais avec une structure de répertoire ayant un niveau de moins (avec des sous-répertoire ayant un nom comme <candidat>_<journal> au lieu de <candidat>/<journal>). Cette nouvelle architecture permet de mieux visualiser les relations journaux/candidats/positionnemens.