Bonjour !
Et voici déjà le dernier article de l'année 2014 (pas du blog ;)) !
Nous venons vous présenter notre tableau HTML composé de toutes ses colonnes (il reste cependant des choses à faire, comme la création du nuage de mots ou l'utilisation de l'outil Le Trameur...).
Nous avons donc ajouté à notre tableau deux colonnes supplémentaires : une pour les fréquences sur un motif recherché parmi toutes nos URLs et l'autre pour les index (état quantitatif de l'ensemble des mots pour chaque URL, c'est un résultat statistique).
Les expressions régulières nous permettent de conserver la généricité du programme tout en pouvant rechercher plusieurs motifs qui nous intéressent.
Le fichier motif est lui aussi encodé en UTF-8. Il ne comporte qu'une seule ligne : MOTIF = regexp.
Nous avons également ajouté deux lignes en plus tout en bas du tableau car nous avons fait la concaténation des fichiers DUMP et des fichiers CONTEXTES. Nous avons donc un fichier DUMP global, un fichier CONTEXTES global ainsi que deux index correspondants. Nous aurons besoin de ces fichiers globaux pour Le Trameur. Cependant, nous avons tout de même gardé la trace, dans ces fichiers globaux, des différentes parties le constituant.
Passons à présent aux résultats (le programme est désormais trop long pour être montré ici) :
|
Tableau final tchèque |
|
Tchèque : contexte HTML |
|
Tchèque : contexte UTF-8 |
|
Tableau final anglais |
|
Anglais : contexte HTML |
|
Anglais : contexte UTF-8 |
|
Dump et contextes globaux anglais |
|
Espagnol : contexte HTML |
|
Tableau final espagnol |
|
Espagnol : contexte UTF-8 |
|
Tableau final français |
|
Français : contexte HTML |
|
Français : contexte UTF-8 |
A l'année prochaine pour d'autres articles ! ;)
Belle fin d'année donc !
RépondreSupprimerCourage pour la dernière ligne droite...
Une nouvelle version du Trameur est en ligne depuis quelques heures :
http://www.tal.univ-paris3.fr/trameur/setup-trameur-12.exe
A+
SF
Merci beaucoup ! Il nous reste encore du travail : nuage de mots, Trameur et surtout site web pour jeudi 15 mais on s'en occupe actuellement.
SupprimerA bientôt