L'archive intégrale de WikipediaFR fournit les révisions et le texte d'icelles.

Un "résumé" de ces archives, élagué du texte des révisions, comprend les informations suivantes (en un fichier tabulé) :

<namespace><titre><page_id><n°révision><date révision><contributeur sur 2 colonnes><contribution mineure ou non : 0|1><commentaire><changements en caractères par rapport à la révision précédente><taille version courante><n° révision de cette page><dernière révision de la page ou non : 0|1>
Article Avignon 1               1       2002-07-26T08:25:43Z    Pog     -1      0       init    360     360     1        0
Article Avignon 1               2       2002-07-26T10:36:02Z    Mokona  -1      1       Orth.   -3      357     2        0
Article Avignon 1               9300    2002-10-31T10:11:31Z    script de conversion    -1      1       Conversion automatique   0       357     3       0
Article Avignon 1               45888   2002-10-31T12:31:45Z    Shaihulud       4       1       liens vers wiki anglais  22      379     4       0

Avec :
<contributeur sur 2 colonnes> := <contributeur à IP><contributeur à username>
<contributeur à IP> := <IP> -1
<contributeur à username> := <username><user_id>

NB : les informations sur les "contributeurs à IP" ne correspondent pas toujours à l'image qu'on se fait d'une IP.

Ce résumé permet déjà de :
  • construire un graphe bipartite articles vs contributeurs ;
  • disposer d'informations sur les contributeurs
    • volume en caractères
    • période(s) d'activité
    • ...
  • disposer d'informations sur les pages
    • évolution de la taille
    • classes de taille
    • évolution dans le temps
    • ...

Répondre à cet article