Auto-organisation et visualisation des graphes

Page principale - S'identifier

Cahier Des Charges

Descriptif technique

 

 

Quatre besoins ont été identifiés, qui correspondent globalement à quatre phases chronologiques. L’étude menée étant longitudinale, la procédure sera à répéter six fois sur une période de six mois.

 

1. Extraction de données Web du site Delicious

1.1. Données à extraire

 

On part de la requête game dans discover favorites de la page d’accueil du site http://del.icio.us/

1. Liste des URL et nombre des contributeurs qui les ont indexées associées au tag game

On souhaite d’abord récupérer la liste des URL associées au tag game, listées par ordre décroissant (non strict) d’utilisateurs les ayant indexées, ainsi que le nombre d’utilisateurs ayant bookmarké chaque page (lien surligné en rose, saved by N other people).

Exemple : 25/09/06, 16h19 : 188623 sites indexés / 27/10/06, 17h50: 217 929 sites indexés.

 Ces URL peuvent s’afficher par 10, 25, 50 ou 100 items par page.

 

2. Informations URL

Le lien saved by N other people conduit à l’historique de l’URL.

 

Six informations nous intéressent :

  1. Les commentaires des utilisateurs, user notes (encadré rouge) ;
  2. La liste des tags associés à l’URL (encadré orange), affichage en liste ;
  3. La liste des URL associées aux tags de la page (encadré noir) ;

Dans l’historique des posts (encadré vert) :

  1. le premier utilisateur ayant indexé la page ;
  2. la liste des utilisateurs l’ayant également indexée (organisée par ordre décroissant) ;
  3. celle des tags qu’ils lui ont posé.

NB : le lien show all permet d’afficher toute l’historique.

 

Ces informations sont à extraire sur chacune des URL ramenées par le tag game.

 

3. Informations contributeurs

On souhaite enfin récupérer les pages des contributeurs recensés.

 

Trois informations nous intéressent :

1.      les URL indexées ;

2.      les tags qui leur sont associés ;

3.      la date d’indexation de l’URL.

1.2. Outils disponibles

Nombreux sites référencés par Absolutely delicious

http://www.quickonlinetips.com/archives/2005/02/absolutely-delicious-complete-tools-collection/

API

Notons que plusieurs API sont disponibles sur http://del.icio.us/help/api/. Leur utilisation demeure toutefois à voir.

http://www.webmonkey.com/webmonkey/06/07/index2a.html?tw=programming

 

Existence d’une API Java http://sourceforge.net/projects/delicious-java/

 

Statistiques, tendances

ü   Posts: http://deli.ckoma.net/stats (buggé en ce moment en raison du changement de delicious mi-août).

ü   Trendalicious : http://glozer.net/trendalicious.html sites les plus populaires référencés dans l’heure précédente.

ü   del.icio.us Most popular Treemap - a treemap of the most popular. [size = popularity, brightness = average age]

 

Visualisation

(extispicious: visualisation graphique mais aléatoire des tags http://kevan.org/extispicious)

Revealicious (Sébastien Pierre de Ivy)

3 applets flash :

ü   space nav qui permet d’observer la structure de son jeu de tags.

ü   Tagscloud : visualisation des tags par nuage.

ü   Grouper : clustering de tags (most, commonly et less used). Possibilité de visualiser les proportions de corrélations des tags en fonction des groupes.

Graph del.icio.us related tags (Alf Eaton)

http://hublog.hubmed.org/archives/001049.html

permet de visualiser les tags corrélés à un tag. Possibilité d’observer plusieurs tags à la fois.

Facetious

Classification sémantique des tags (organization, activity, place, technology, attribute, genre, tag, contributor, site et date).

 

Conversion

ü   outils de type del.icio.us backup (conversion des bookmarks en sqlite) http://www.bigbold.com/snippets/posts/show/290

ü   http://nanovivid.com/projects/mysqlicious/

 

Sémantique

Sidvicious http://alteree.hardcore.lt/rdql/sidvicious2.php pour construire des ontologies de tags.

 

2. Importation/conversion des données html dans une base structurée

Livrable 1 : base de donnée contenant les informations décrites autour du tag "game"

 

On souhaite que l’ensemble des données extraites soit contenu dans une base SQL. Quelques exemples de tables de données qui nous intéressent :

ü   une table avec en ligne les URL et en colonne le nombre d’utilisateurs qui les ont indexées ;

ü   une table avec en ligne les URL et en colonne les utilisateurs qui les ont indexées ;

ü   une table avec en ligne les URL et en colonne les tags qui leur sont associés ;

ü   etc.

 

3. Visualisation par Sémiophore

Livrable 2 : modèle Semiophore permettant d'exploiter les données comme indiqué (graphe user-url et user-tag avec infos chronologiques)

On cherche à explorer les données au moyen de visualisation par graphes, et plus précisément, via Sémiophore.

On souhaite ainsi (liste non exhaustive) :

ü   visualiser le graphe contributeurs/URL communes, afin d’identifier des clusters de contributeurs en fonction des URL renvoyées avec l’entrée GAME ;

ü   repérer l’opposition des pratiques de taggage en comparant le graphe précédent avec le graphe des contributeurs/tags ; en projetant les tags associés aux URL sur le graphe URL / contributeurs précédant.

ü   observer le renouvellement des tags et des URL pour chaque cluster (étude longitudinale sur six mois), l’influence des pôles et des clusters entre eux ;

ü   observer si les clusters de contributeurs obtenus ont par ailleurs des centres d’intérêt (des URL) communs, à partir des données extraites des pages contributeurs ;

ü   observer les contributeurs à l’origine de tags populaires ;

ü   observer le comportement des contributeurs fréquents (ventilation de leur activité dans tous les pôles, initiation de différences ?) ;

ü   spécialisation ou élargissement des tags ;

ü   etc.

4.   Formation et assistance

La présente étude est longitudinale et porte sur une période de six mois, à raison d’une extraction par mois.

Une période de formation est donc à prendre en compte étant donné que les scripts générés par Sémiosys devront être ré-utilisés, voire adaptés en fonction des changements éventuels du site Delicious. On peut donc envisager une extraction des données avec formation dans les deux premiers mois du traitement, de même qu’une assistance (hotline) dans les extractions qui suivront.