CR réunion du 7 mars
Extraction des données wikipedia
Présents : Jean-Daniel Fekete (INRIA), Benoît Habert (LIMSI), Martine Hurault-Plantet (LIMSI), Dominique Cardon (FTRD), Christophe Prieur (LIAFA), Nicolas Auray (ENST), Julien Levrel (FTRD), Michèle Jardino (LIMSI), Elie Naulleau (Semiosys)
La réunion a porté sur le travail d’extraction sur la base wikipedia. Il s’agit dans l’idéal de répondre en même temps à plusieurs objectifs :
Sur quel type de données va-t-on travailler ? Il y a trois types de données de départ possibles la base de données de wikipedia ; les tables de correspondances supplémentaires que l’on peut parser à cette base ; et le fichier online des pages et des liens entre les pages. Après une discussion, on choisit de travailler sur la base additionnée des des tables complémentaires qu’on juge utile d’y rajouter (exemple la table des catégories). Une proposition est faite que ces données de base seraient distribuées sous la forme d’un CD-ROM (cela tient sur 400 Mo environ) avec installation facile, qui tournerait sous Linux/MysQL. Le LIMSI pourrait faire ce conditionnement. Chaque labo recevrait ensuite la base, et pourrait ainsi l’enrichir avec ses propres traitements ultérieurs. L’idée avancée est qu’on pourrait ensuite partager ces traitements (scripts, etc…à) ultérieurs grâce à l’outil de gestion de versions concurrentes G-Forge que Jean-Daniel vient d’ouvrir (cf. mail de JD Fekete du 8 mars 2006).
Il serait donc intéressant que chaque labo regarde bien les tables de correspondantes existantes pour savoir lesquelles seraient prioritaires à récupérer.
La réunion a tenté de réfléchir aux outils de visualisation qu’on pourrait d’emblée proposer aux utilisateurs. Quatre pistes de prototypes sont envisageables. Il est envisagé qu’on puisse proposer au lecteur de pouvoir switcher entre trois (ou quatre) vues, pas plus pour ne pas le noyer, chaque vue correspondant à l’un des prototypes de visualisation qu’on pourrait mettre en place switcher entre trois (ou quatre) vues, pas plus pour ne pas le noyer, chaque vue correspondant à l’un des prototypes de visualisation qu’on pourrait mettre en place.
- une visualisation qui serait basée sur les liens entre articles (vers quelles pages il pointe ; quelle page pointe sur lui). Le but général de cette première visualisation serait de signaler des similarités sémantiques entre des articles qui n’étaient pas déjà dévoilées. Le problème des liens inter-articles est cependant compliqué il y a en effet plusieurs types de liens ; il y a des liens crochetés manuellement par le rédacteur de l’article et des liens amenés par des robots qui indexent automatiquement (exemple indexation automatique des dates). Il y a des liens qui affilient l’article à une ou des « catégories », il y a des liens qui pointent vers d’autres articles. Tous les liens ne sont pas équivalents et un débat a lieu sur la question de savoir s’il ne faudrait pas au préalable enlever certains liens (tels les liens des robots indexeurs de dates).
- Cela pose une question sur la visualisation : pour les uns (Jean-Daniel,…) la visualisation doit représenter l’état courant des métadonnées, et pas une sélection choisie par celui qui fait la visualisation. Pour d’autres, la visualisation est un indicateur, on a le droit de choisir nos indicateurs. Il y a débat sur le fait d’exclure ou pas certains liens. On décide de regarder ce que donne un graphe et d’agir en fonction de l’aspect obtenu.
- Y a-t-il des mesures de spécificité sur des liens qu’on peut calculer à partir du graphe ? Jean-Daniel signale par exemple que des catégories qui ont des liens entrants à partir de pages appartenant à des catégories très hétérogènes ont une probabilité forte d’être moins spécifiques, donc moins pertinentes.
- On peut imaginer de même de discriminer des liens qui pointent vers des articles similaire et des liens qui pointent vers des articles non similaires.
- On pourrait proposer des outils de visualisation qui donneraient une couleur ou un grisé aux liens, ou qui filtreraient les résultats en retranchant certains types de liens du graphe.
- une visualisation basée sur les liens bipartites (graphe bipartite articles/auteurs) Gros contributeur. Il faudrait faire un lissage nom de contributeur par article, etc…
- Les sociologues seraient intéressés par faire entrer dans la base de données le statut des auteurs Adm., Bureau., Com. Arbitrage,…il faudrait voir s’il y a des pages namespace de Wikipedia dans l’archive
- Il faudrait pouvoir différencier rédacteur et correcteur (et éventuellement entre types de révision). Cela existe pour l’instant avec le tag _NEW_
- Amplitude de la contribution Benoît a créé un script pour générer un diff.
- Distinguer les articles en fonction de la taille du conflit.
- une visualisation des évolutions de l’article (il serait possible de reprendre
- Problème si on utilise GraphML : il n’y a pas de notion de temps. Christophe a réfléchi sur ce problème et signale un travail fait au LIAFA. Il a consisté à mettre une estampille temporelle sur les données. Il y a des vues différentes du temps dans les graphes temporalisation des événements extérieurs ; ou à l’inverse de l’intérieur on dit sur tel sommet telle arête il y a un attribut qui change de valeur
- Enfin : faire une visualisation de l’historique des auteurs
Remarques diverses :
- Superposer différentes encyclopédies à un index bibliographique serait trop compliqué à l’état actuel. Faire un poster de la carte thématique de Wikipedia France. Introduire une donnée de similarité entre les sommets (sommets = pages ; liens d’une page à une autre = arêtes). Entrer des infos de similarité calculées par rapport à la distance sur le graphe des catégories (de manière à inflêchir la topologie par des similarités sémantiques, par exemple par la distance entre les catégories).
- Quelle est la politique de proxy de Wikipedia ? Quelle durée de validité les pages indiquent-elles ? Certaines pages ont une durée de zéro. Il semble que la durée soit variable selon les pages, qu'en est-il vraiment?
Par auray
|
| 16/03/2006 11:23
| Actualités
|
un commentaire
| Lu 7396 fois
|
Commentaires
1 -par successhong, le Vendredi 11 Mars 2011, 09:34 Répondre à ce commentaire