Présents : Jean-Daniel Fekete (INRIA), Benoît Habert (LIMSI), Martine Hurault-Plantet (LIMSI), Dominique Cardon (FTRD), Christophe Prieur (LIAFA), Nicolas Auray (ENST), Julien Levrel (FTRD), Michèle Jardino (LIMSI), Elie Naulleau (Semiosys)

La réunion a porté sur le travail d’extraction sur la base wikipedia. Il s’agit dans l’idéal de répondre en même temps à plusieurs objectifs :

Sur quel type de données va-t-on travailler ? Il y a trois types de données de départ possibles  la base de données de wikipedia ; les tables de correspondances supplémentaires que l’on peut parser à cette base ; et le fichier online des pages et des liens entre les pages. Après une discussion, on choisit de travailler sur la base additionnée des des tables complémentaires qu’on juge utile d’y rajouter (exemple  la table des catégories). Une proposition est faite que ces données de base seraient distribuées sous la forme d’un CD-ROM (cela tient sur 400 Mo environ) avec installation facile, qui tournerait sous Linux/MysQL. Le LIMSI pourrait faire ce conditionnement. Chaque labo recevrait ensuite la base, et pourrait ainsi l’enrichir avec ses propres traitements ultérieurs. L’idée avancée est qu’on pourrait ensuite partager ces traitements (scripts, etc…à) ultérieurs grâce à l’outil de gestion de versions concurrentes G-Forge que Jean-Daniel vient d’ouvrir (cf. mail de JD Fekete du 8 mars 2006).

Il serait donc intéressant que chaque labo regarde bien les tables de correspondantes existantes pour savoir lesquelles seraient prioritaires à récupérer.

La réunion a tenté de réfléchir aux outils de visualisation qu’on pourrait d’emblée proposer aux utilisateurs. Quatre  pistes de prototypes sont envisageables. Il est envisagé qu’on puisse proposer au lecteur de pouvoir switcher entre trois (ou quatre) vues, pas plus pour ne pas le noyer, chaque vue correspondant à l’un des prototypes de visualisation qu’on pourrait mettre en place   switcher entre trois (ou quatre) vues, pas plus pour ne pas le noyer, chaque vue correspondant à l’un des prototypes de visualisation qu’on pourrait mettre en place.

    • une visualisation qui serait basée sur les liens entre articles (vers quelles pages il pointe ; quelle page pointe sur lui). Le but général de cette première visualisation serait de signaler des similarités sémantiques entre des articles qui n’étaient pas déjà dévoilées. Le problème des liens inter-articles est cependant compliqué il y a en effet plusieurs types de liens ; il y a des liens crochetés manuellement par le rédacteur de l’article et des liens amenés par des robots qui indexent automatiquement (exemple indexation automatique des dates). Il y a des liens qui affilient l’article à une ou des « catégories », il y a des liens qui pointent vers d’autres articles. Tous les liens ne sont pas équivalents et un débat a lieu sur la question de savoir s’il ne faudrait pas au préalable enlever certains liens (tels les liens des robots indexeurs de dates).
      • Cela pose une question sur la visualisation : pour les uns (Jean-Daniel,…) la visualisation doit représenter l’état courant des métadonnées, et pas une sélection choisie par celui qui fait la visualisation. Pour d’autres, la visualisation est un indicateur, on a le droit de choisir nos indicateurs. Il y a débat sur le fait d’exclure ou pas certains liens. On décide de regarder ce que donne un graphe et d’agir en fonction de l’aspect obtenu.
      • Y a-t-il des mesures de spécificité sur des liens qu’on peut calculer à partir du graphe ? Jean-Daniel signale par exemple que des catégories qui ont des liens entrants à partir de pages appartenant à des catégories très hétérogènes ont une probabilité forte d’être moins spécifiques, donc moins pertinentes.
      • On peut imaginer de même de discriminer des liens qui pointent vers des articles similaire et des liens qui pointent vers des articles non similaires.
      • On pourrait proposer des outils de visualisation qui donneraient une couleur ou un grisé aux liens, ou qui filtreraient les résultats en retranchant certains types de liens du graphe.

    • une visualisation basée sur les liens bipartites (graphe bipartite articles/auteurs) Gros contributeur. Il faudrait faire un lissage nom de contributeur par article, etc…
      • Les sociologues seraient intéressés par faire entrer dans la base de données le statut des auteurs Adm., Bureau., Com. Arbitrage,…il faudrait voir s’il y a des pages namespace de Wikipedia dans l’archive
      • Il faudrait pouvoir différencier rédacteur et correcteur (et éventuellement entre types de révision). Cela existe pour l’instant avec le tag _NEW_
      • Amplitude de la contribution Benoît a créé un script pour générer un diff.
      • Distinguer les articles en fonction de la taille du conflit.

    • une visualisation des évolutions de l’article (il serait possible de reprendre
      • Problème si on utilise GraphML : il n’y a pas de notion de temps. Christophe a réfléchi sur ce problème et signale un travail fait au LIAFA. Il a consisté à mettre une estampille temporelle sur les données. Il y a des vues différentes du temps dans les graphes temporalisation des événements extérieurs ; ou à l’inverse de l’intérieur on dit sur tel sommet telle arête il y a un attribut qui change de valeur

    • Enfin : faire une visualisation de l’historique des auteurs

    Remarques diverses :

    • Superposer différentes encyclopédies à un index bibliographique serait trop compliqué à l’état actuel. Faire un poster de la carte thématique de Wikipedia France. Introduire une donnée de similarité entre les sommets (sommets = pages ; liens d’une page à une autre = arêtes). Entrer des infos de similarité calculées par rapport à la distance sur le graphe des catégories (de manière à inflêchir la topologie par des similarités sémantiques, par exemple par la distance entre les catégories).
    • Quelle est la politique de proxy de Wikipedia ? Quelle durée de validité les pages indiquent-elles ? Certaines pages ont une durée de zéro. Il semble que la durée soit variable selon les pages, qu'en est-il vraiment?

  • construire des outils de visualisation destinés à faciliter ou améliorer la lecture par un utilisateur de base
  • proposer aux développeurs de Wikipedia des outils qui puissent valoriser leur encyclopédie, sans trop ralentir leurs serveurs en faisant des requêtes dessus
  • préparer des indicateurs objectifs pouvant étayer un travail sociologique d’analyse de la gouvernance et de la coopération entre contributeurs.
  • Répondre à cet article