L'archive intégrale de WikipediaFR fournit les révisions
et le texte d'icelles.
Un "
résumé" de ces archives, élagué du
texte des révisions, comprend les informations suivantes (en un
fichier tabulé) :
<namespace><titre><page_id><n°révision><date
révision><contributeur sur 2 colonnes><contribution
mineure ou non : 0|1><commentaire><changements en
caractères par rapport à la révision
précédente><taille version courante><n°
révision de cette page><dernière révision de
la page ou non : 0|1>
Article Avignon
1
1
2002-07-26T08:25:43Z Pog
-1 0
init 360
360 1
0
Article Avignon
1
2
2002-07-26T10:36:02Z Mokona
-1 1
Orth. -3
357 2
0
Article Avignon
1
9300 2002-10-31T10:11:31Z script de
conversion -1
1 Conversion
automatique 0
357 3 0
Article Avignon
1
45888 2002-10-31T12:31:45Z
Shaihulud
4
1 liens vers wiki anglais
22 379
4 0
Avec :
<contributeur sur 2
colonnes> := <contributeur à IP><contributeur
à username>
<contributeur à IP>
:= <IP> -1
<contributeur à
username> := <username><user_id>
NB : les informations sur les "contributeurs à IP" ne
correspondent pas toujours à l'image qu'on se fait d'une IP.
Ce résumé permet déjà de :
- construire un graphe bipartite articles vs contributeurs ;
- disposer d'informations sur les contributeurs
- volume en caractères
- période(s) d'activité
- ...
- disposer d'informations sur les pages
- évolution de la taille
- classes de taille
- évolution dans le temps
- ...