Page principale - S'identifier - S'inscrire
Cahier Des Charges
Descriptif technique
Quatre besoins ont été identifiés, qui correspondent globalement à quatre phases chronologiques. L’étude menée étant longitudinale, la procédure sera à répéter six fois sur une période de six mois.
1. Extraction de données Web du site Delicious
1.1. Données à extraire
On part de la requête game dans discover favorites de la page d’accueil du site http://del.icio.us/
1. Liste des URL et nombre des contributeurs qui les ont indexées associées au tag game
On souhaite d’abord récupérer la liste des URL associées au tag game, listées par ordre décroissant (non strict) d’utilisateurs les ayant indexées, ainsi que le nombre d’utilisateurs ayant bookmarké chaque page (lien surligné en rose, saved by N other people).
Exemple : 25/09/06, 16h19 : 188623 sites indexés / 27/10/06, 17h50: 217 929 sites indexés.
Ces URL peuvent s’afficher par 10, 25, 50 ou 100 items par page.
2. Informations URL
Le lien saved by N other people conduit à l’historique de l’URL.
Six informations nous intéressent :
- Les commentaires des utilisateurs, user notes (encadré rouge) ;
- La liste des tags associés à l’URL (encadré orange), affichage en liste ;
- La liste des URL associées aux tags de la page (encadré noir) ;
Dans l’historique des posts (encadré vert) :
- le premier utilisateur ayant indexé la page ;
- la liste des utilisateurs l’ayant également indexée (organisée par ordre décroissant) ;
- celle des tags qu’ils lui ont posé.
NB : le lien show all permet d’afficher toute l’historique.
Ces informations sont à extraire sur chacune des URL ramenées par le tag game.
3. Informations contributeurs
On souhaite enfin récupérer les pages des contributeurs recensés.
Trois informations nous intéressent :
1. les URL indexées ;
2. les tags qui leur sont associés ;
3. la date d’indexation de l’URL.
1.2. Outils disponibles
Nombreux sites référencés par Absolutely delicious
http://www.quickonlinetips.com/archives/2005/02/absolutely-delicious-complete-tools-collection/
API
Notons que plusieurs API sont disponibles sur http://del.icio.us/help/api/. Leur utilisation demeure toutefois à voir.
http://www.webmonkey.com/webmonkey/06/07/index2a.html?tw=programming
Existence d’une API Java http://sourceforge.net/projects/delicious-java/
Statistiques, tendances
ü Posts: http://deli.ckoma.net/stats (buggé en ce moment en raison du changement de delicious mi-août).
ü Trendalicious : http://glozer.net/trendalicious.html sites les plus populaires référencés dans l’heure précédente.
ü del.icio.us Most popular Treemap - a treemap of the most popular. [size = popularity, brightness = average age]
Visualisation
(extispicious: visualisation graphique mais aléatoire des tags http://kevan.org/extispicious)
Revealicious (Sébastien Pierre de Ivy)
3 applets flash :
ü space nav qui permet d’observer la structure de son jeu de tags.
ü Tagscloud : visualisation des tags par nuage.
ü Grouper : clustering de tags (most, commonly et less used). Possibilité de visualiser les proportions de corrélations des tags en fonction des groupes.
Graph del.icio.us related tags (Alf Eaton)
http://hublog.hubmed.org/archives/001049.html
permet de visualiser les tags corrélés à un tag. Possibilité d’observer plusieurs tags à la fois.
Facetious
Classification sémantique des tags (organization, activity, place, technology, attribute, genre, tag, contributor, site et date).
Conversion
ü outils de type del.icio.us backup (conversion des bookmarks en sqlite) http://www.bigbold.com/snippets/posts/show/290
ü MySQLicious http://nanovivid.com/projects/mysqlicious/
Sémantique
Sidvicious http://alteree.hardcore.lt/rdql/sidvicious2.php pour construire des ontologies de tags.
2. Importation/conversion des données html dans une base structurée
Livrable 1 : base de donnée contenant les informations décrites autour du tag "game"
On souhaite que l’ensemble des données extraites soit contenu dans une base SQL. Quelques exemples de tables de données qui nous intéressent :
ü une table avec en ligne les URL et en colonne le nombre d’utilisateurs qui les ont indexées ;
ü une table avec en ligne les URL et en colonne les utilisateurs qui les ont indexées ;
ü une table avec en ligne les URL et en colonne les tags qui leur sont associés ;
ü etc.
3. Visualisation par Sémiophore
Livrable 2 : modèle Semiophore permettant d'exploiter les données comme indiqué (graphe user-url et user-tag avec infos chronologiques)
On cherche à explorer les données au moyen de visualisation par graphes, et plus précisément, via Sémiophore.
On souhaite ainsi (liste non exhaustive) :
ü visualiser le graphe contributeurs/URL communes, afin d’identifier des clusters de contributeurs en fonction des URL renvoyées avec l’entrée GAME ;
ü repérer l’opposition des pratiques de taggage en comparant le graphe précédent avec le graphe des contributeurs/tags ; en projetant les tags associés aux URL sur le graphe URL / contributeurs précédant.
ü observer le renouvellement des tags et des URL pour chaque cluster (étude longitudinale sur six mois), l’influence des pôles et des clusters entre eux ;
ü observer si les clusters de contributeurs obtenus ont par ailleurs des centres d’intérêt (des URL) communs, à partir des données extraites des pages contributeurs ;
ü observer les contributeurs à l’origine de tags populaires ;
ü observer le comportement des contributeurs fréquents (ventilation de leur activité dans tous les pôles, initiation de différences ?) ;
ü spécialisation ou élargissement des tags ;
ü etc.
4. Formation et assistance
La présente étude est longitudinale et porte sur une période de six mois, à raison d’une extraction par mois.
Une période de formation est donc à prendre en compte étant donné que les scripts générés par Sémiosys devront être ré-utilisés, voire adaptés en fonction des changements éventuels du site Delicious. On peut donc envisager une extraction des données avec formation dans les deux premiers mois du traitement, de même qu’une assistance (hotline) dans les extractions qui suivront.