Auto-organisation et visualisation des graphes

Page principale - S'identifier

Note De Synthese Sur La Folksonomy

Note de synthèse sur la folksonomy : à la recherche du « chaînon manquant »

 

Les partage de mots-clefs sur la base d’auto-indexation, par application des étiquettes à la volée sur les contenus, constitue un des traits les plus remarquables du Web 2.0. Bien que son organisation repose sur le principe de « taxinomies populaires », que l’on peut aussi dénommer ethnoclassifications,  les concepteur de ce genre de dispositifs ont bien peu souvent utilisé les apports théoriques et scientifiques de la nouvelle théorie des classifications, tels que les travaux sur les prototypes de Rosch ou ceux sur les niveaux de profondeur en catégorisation sémantique de Jackendorff. L’objectif de cette note de synthèse vise à relier ces deux mondes : celui, indigène, des informaticiens sociaux et des ergonomes concepteurs de sites de Web 2.0 fondés sur les auto-indexations, ou, selon le terme local, user-created metadata; celui, en cognition sociale, des recherches psychologiques sur la catégorisation.

 

Histoire de l’auto-indexation populaire : les premiers sites de partages de signets web sont delicious (pour les signets) et Flickr (pour les photos). Se sont développés ensuite des clones de delicious, dont le plus célèbre (del.irio.us, version open source de del.icio.us) n’a pas survécu ; il y a néanmoins depuis d’autres clones (comme Scuttle). Se sont aussi développés des sites clones qui se mettent à l’accent sur de nouveaux services : des sites comme Guten Tag [http://gutentag.viabloga.com/] qui mettent l’accent sur la popularité des tags. Il faudrait détailler plus précisément ce que fait Guten Tag et en quoi il diffère de Delicious.

 

Enfin, se sont développés des sites clones qui ciblent plutôt sur des contenus particuliers :

  • les contenus de blogs (site d’indexation de blogs comme Technorati ; éventuellement il faudrait regarder ce que fait Writely (Ecrire et partager des documents écrits en ligne - Rachat par Google et si ça se distingue d’un index de blogs),

  • les actualités (Slashdot Site d'actualité - technicoscientifique - Axel Bruns ; Newsvine (de l'actualité qui mixe des sources professionnelles - Associated Press - et éditions d'internautes. Principe d'auto-régulation - freshness, popularity, reputation - par les internautes ; Ohmynews! Site d'actualité, 41 000 contributeurs "citoyens" en 6 ans, 30% du site est édité par une équipe éditoriale voire Indymedia ("The Independent Media Ceter is a network of collectively run media outlets for the creation of radical, accurate, and passionate tellings of the truth. We work out of a love and inspiration for people who continue to work for a better world, despite corporate media's distortions and unwillingness to cover the efforts to free humanity")

  • les compétences humaines (site Tagalag, qui permet de tagger des individus repérés par leur nom et leur emplacement géographique, en fonction de certaines compétences ; site http://www.43things.com/ : Créer une liste de 43 choses à faire dans sa vie, découvrir ce que les autres veulent faire, être dans le même coin du monde et s'aider mutuellement)

  • les documents non écrits : vidéos (dailymotion et YouTube) ; images (photos Flickr).

 

Définition et raison d’être de ces sites :

Le principe de ces sites est le tagging coopératif (cf. Voss 2006).

 

[Voss a étudié la différence entre ce système de catégorisation qu’est le tagging coopératif avec les deux autres systèmes : la catégorisation hiérarchique (arbres : exemple la DCC) et la catégorisation appelée thésaurus. Le thésaurus est un taggage « contrôlé » par le fait que les relations a priori entre les concepts sont rendues explicites :  les termes de l’index sont reliés par des relations : relations d’équivalence ; relations hiérarchiques ; relations associatives. Il a été développé en science de l’information par Peter Luhn en 1957, puis par Mortimer Taube qui a développé le Uniterm system, en thésaurus. 

 

d’après Voss 2006

 

Pourquoi certains de ces sites ont réussi et pas d’autres :

Il semble que l’effet masse critique soit essentiel dans le succès de certains de ces sites et l’échec de nombreux autres. Le site qui a eu le plus de succès parce qu’il est simple d’entrer ses tags et qu’il y a une masse critique (les deux choses étant liées…) est ainsi Delicious. Les utilisateurs importent des tags sur leurs sites web préférés via une API dans leur navigateur ; ils partagent ces tags avec leur communauté. Il faudrait regarder depuis quand il y a un plug-in sur les navigateurs qui fait qu’on peut facilement exporter ses signets vers delicious, qui a créé ce plug-in, le contexte etc……

Ces sites ont 5 raisons d’être :

On peut avancer 5 raisons, chacune compatible avec les autres, chacune pesant d’un poids différent selon les sites.

 

1)      On peut voir dans le succès de ces sites une réaction d’inquiétude, ou une réaction de nature politique face au contrôle de l’information véhiculée sur Internet par des moteurs de recherche contrôlés par des compagnies privées : une réaction civique contre le monopole de Google. Est-ce qu’il faut laisser à une seule entreprise, dont l’algorithme est opaque, des outils culturels ?

 

[Certains documents normatifs auto-descriptifs de sites véhiculent cette idée. Ainsi, Stumble Upon mentionne que faire tagger les internautes est un moyen de créer une « vraie démocratie du web » ; ce qui entretient confusément l’idée que c’est démocratique, c’est que Stumble Upon permet (à la différence de Google) de voter pour des sites. Il faudrait faire un dépouillement exhaustif des documents de présentation de ces sites] 

 

uses / ratings to form collaborative opinions on website quality. When you stumble, you will only see pages which friends and like-minded stumblers ( ) have recommended. Unlike search engines or static directories, this enables a true "democracy of the web" – all SU members have a say ( or ) as to whether a page should be passed on. Rating pages also improves your stumbles... such ratings connect you to like-minded people who will show you interesting and relevant sites.

2)      Il semblerait que certains sites de partage collaboratif ont eu du succès parce qu’ils remédient à une difficulté à certains contenus via Google ou les moteurs de recherche standard. Ils correspondent à des contenus difficilement crawlables  par les moteurs de recherche standard : images, vidéos, musiques (formats pour lesquels il est difficile d’induire des mots-clefs) ; blogs, news, etc…. (à vérifier si Google indexe bien ou mal les mots-clefs des blogs et des news – comme Slahsdot ou Newsyne ou Ohmynews)

 

[Ainsi, parmi les sites majeurs on trouve Youtube, Dailymotion (vidéo), ou bien des sites de partage de news :

 

 

3)      La folksonomy répondrait  à une recherche sur le web plus exploratoire que l’interrogation d’un moteur de recherche (le butinage  de proche en proche). C’est une façon de parcourir le blackboard de façon plus aléatoire. C’est la thèse du travail intéressant d’Adam MATHERS (2004) : « Browsing versus Finding » : There is a fundamental difference between direct searching with a query and browsing to find interesting content. La première vertu de la folksonomy est la ’sérendipité’ [traduisible par “heureux hasard”, voir la “sérendipité sociale“]. C’est une solution qui incite à la navigation et, via un ensemble de tags liés entre eux, constitue une source fantastique pour identifier des choses inattendues qu’on ne trouverait pas sans cela. C’est la même différence qu’entre explorer un espace de problèmes pour formuler des questions, par opposition à rechercher des réponses effectives à des questions précisément formulées. Sur ce point, il n’est pas clair de savoir si l’usage de sites de folksonomy répond à une prédilection explicite antérieure pour l’exploration, ou si à l’inverse la folksonomy a fourni l’occasion et influencé le développement des usages exploratoires du web, sans que cela ait été prévu au départ (l’heureux hasard).

 

Ce qui est sûr, par exemple, c’est que les sites de folksonomy qui contiennent des fichiers musicaux (webradios) permettent une exploration plus ouverte des musiques, plus aléatoires que si l’on écoutait une radio. On a en effet des groupes de discussion pour découvrir d’autres musiques. On peut surtout voir la playlist des gens qui aiment la musique qu’on écoute : ce qui nous fait varier continuement notre musique.

    • Exemple : PANDORA (Créer une radio aléatoire, découvrir des artistes, partager par mail sa playlist)

 

 

 

De la même façon sur del.icio.us  est mentionnée l’importance de l’aide à l’exploration, au butinage curieux :

o       Il y a beaucoup de visualisateurs en plug-in qui permettent de voyager de tags en tags  : ils visualisent par un graphe le réseau des tags

§         Revelicious : Revealicious développé par Sébastien Pierre de Ivy (architecture et design de logiciels)

§         Alf Eaton “Graph del.icio.us related tags” : http://hublog.hubmed.org/archives/001049.html

o       Il y a un plug-in plus sophistiqué, fac.etio.us, qui permet une classification « facettée », i.e. de voyager selon plusieurs directions : de tag en tag mais aussi de tag vers tous les gens qui ont taggé le tag :  http://www.hyperorg.com/blogger/mtarchive/003702.html#comments

 

 

 

 

 

 

 

4)      Le filtrage des critiques (différenciation horizontale) : le partage collaboratif permet de mieux connaître la personnalité (l’ensemble des goûts) de la personne dont on lit la critique : cela permet de se faire une idée de la valeurr de cette critique.

 

Exemple de sites de folksonomy qui permettent le filtrage des critiques (et la différenciation horizontale):

Au lieu de recevoir un guidage unique vers des pages, en fonction de requêtes, on ne reçoit que les pages qui ont été taggées avec ce mot-clef par des gens qui nous ressemblent :

 

helps you discover and share great websites. As you click Stumble!, we deliver high-quality pages matched to your personal preferences. These pages have been explicitly recommended by your friends or one of 1,223,861 other websurfers with interests similar to you. Rating these sites you like ( ) automatically shares them with like-minded people – and helps you discover great sites your friends recommend.

How Does it Work?  uses / ratings to form collaborative opinions on website quality. When you stumble, you will only see pages which friends and like-minded stumblers ( ) have recommended. Unlike search engines or static directories, this enables a true "democracy of the web" – all SU members have a say ( or ) as to whether a page should be passed on. Rating pages also improves your stumbles... such ratings connect you to like-minded people who will show you interesting and relevant sites.

Del.icio.us, là encore, est représentatif de sites qui visent la différenciation horizontale : en effet, ce qui fait la force de del.icio.us, c’est la singularité des processus de taggage :

a.       Il y a un plug-in de Firefox qui permet de voir combien de fois et quels sont les tags pour lesquels un site web a été taggé dans del.icio.us.

b.      Pour garder la spécificité contextuelle du taggage, on ne propose pas  à celui qui tagge l’ensemble des tags mis pour tagger le même contenu, mais uniquement l’intersection entre les tags déjà mis et son propre ensemble de tags. Le terme employé est : Recommended Tags. La classification va émerger de l’ensemble des tags qui sont imposés par les utilisateurs. On lui montre les tags les plus populaires déjà utilisés sur ce site, etc… Cela encourage la personne à réutiliser ses propres tags ; cela favorise la pluralité des catégorisations. Cela favorise la décontextualisation de l’activité de taggage. Il set ainsi jugé fondamental par del.icio.us de permettre et d’encourager un comportement de taggage individualisé et potentiellement idiosyncrasique. Les Recommended Tags de del.icio.us réalisent un compromis entre la nécessaire harmonisation et homogénéisation, et le maintien d’un ancrage contextuel et idiosyncrasique pour l’activité de taggage.

Delicious propose un tag tout de suite ; il n’attend pas qu’on ait déjà taggé (Nicolas à l’inverse propose des seconds tags en fonction du premier tag qu’on a mis).

Bref, certaines ambiguïtés sont précieuses : elles permettent une différenciation horizontale. Elles sont des marqueurs culturels (sur le modèle des portraits chinois)

 

De plus delicious est utilisé par le fait qu’il permet de réaliser des portraits chinois véritables des utilisateurs, identifiés à l’aide d’une mosaïque d’images. Extisp.icio.us (du latin qui désigne une inspection des entrailles pour la divination) : http://kevan.org/extispicious. Il permet de visualiser une mosaïque d’images puisées dans Yahoo images à partir des mots tags utilisés plusieurs fois par un user de delicious.

 

 

 

 

 

 

 

Un utilisateur de del.icio.us, Kiddphunk, a mis en place un plug-in qui s’appelle delicious discover [http://www.mandalabrot.net/delicious/] qui vise à connecter plus facilement l’utilisateur avec des utilisateurs qui privilégient les mêmes contenus, i.e. qui partagent avec lui non pas des liens populaires (liens que beaucoup d’utilisateurs ont), mais des liens rares. A la limite, son outil permet de se connecter avec les affinités électives, l’ensemble des utilisateurs qui sont les seuls à avoir un lien précis en commun avec soi. Pour cela, il attribue des pondérations, en fonction de leur rareté, au contenu que chaque utilisateur a en commun avec soi. Sa méthode vise à faire ressortir très précisément le type de contenu, dénommé sweet spot, qui se trouve en haut et à droite du graphique ci-dessous :

 

 

 

 

 

 

 

 

5)      Le partage collaboratif n’a pas comme seul intérêt de produire des bases de données. Il débouche sur de nombreuses fonctionnalités, s’associe à de nombreux services dérivés. La rencontre : la taxonomie est un icebreaker au sens où c’est un crible et un filtre pour sélectionner des relations. Mais pas forcément sur l’algorithme « qui se ressemble s’assemble » : ça peut être la complémentarité …

Exemple de sites de folksonomy qui permettent la rencontre :

http://www.43things.com/ : Créer une liste de 43 choses à faire dans sa vie, découvrir ce que les autres veulent faire, être dans le même coin du monde et s'aider mutuellement)

 

C’est aussi explicitement le modèle de PANDORA, site d’écoute de la radio :

http://www.pandora.com/

As you listen (with iTunes, Winamp, Windows Media Player, or others), your tracks automatically appear in your online musical profile – we call this "scrobbling."

Explore custom recommendations and personalised radio, find your musical soulmates, discuss your favourite bands, and share your musical insights with friends, family, and the world!

L’ouverture de ces sites à des fonctionnalités imprévues, fabriquées par les utilisateurs : les mashups

De nombreux mashups rajoutent des fonctions à delicious : 

a.       Fonction de marqueur ou de percepteur de mode ou de descripteur du Zeitgeist 

                                                               i.      Technorati par exemple affiche les 200 tags les plus populaires du moment.

                                                             ii.      Des agrégateurs comme Guten Tag permettent de faire des statistiques sur la popularité des tags issus de plusieurs sites différents

                                                            iii.      delicious affiche les sites les plus populaires du jour ;  regarder précisément quel est l’intervalle de temps pris en compte

b.      Outil de visualisation tel que : le nuage de tags = le degré zéro en terme de visualisation. Plus le tag est gros, plus il y a eu d’utilisateurs qui ont rentré le tag. Le nuage de tags est généré par une API qui étend del.icio.us : Extisp.icio.us (générateur de nuages de tags - tagclouds - pour un compte del.icio.us)

 

 

 

 

Littérature et travaux existants sur DELICIOUS

Les travaux sont orientés par les défauts d’utilisabilité des sites d’auto-indexation. Ainsi, ils sont marqués par la volonté de remédier au problème le plus criant : le manque de normalisation des tags entrés ce dont témoigne le grand nombre d’erreurs d’orthographe, la diversité des langues, la grande variété des signes de ponctuation, le manque de cadre cohérent pour utiliser des concaténations (certains utilisent le tiret, d’autres le slash, d’autres rien du tout)…

 

1)      Certains travaux étudient les best practices à adopter pour les tags : ils tentent de répondre aux questions suivantes : quelles heuristiques proposer aux users pour améliorer leurs pratiques de tag? Mieux comprendre les motivations des posteurs de tags, pour améliorer les entrées de tags. … dans l’optique d’améliorer la saisie des tags et de diminuer les tags mal prononcés. Ces études commencent toutes par constater que les tags à occurrence unique sont rares (ils minimisent donc le problème). Ils considèrent que les erreurs orthographiques, le manque de normalisation pour l’usage des signes de ponctuation dans les tags (ils ont un tableau éloquent sur l’équirépartition des signes de ponctuation), la différence des langues, et le fait que, pour une partie marginale mais indéniable, les users taggent pour leur usage personnel (aide-mémoire) et non pour les autres, font que les tags sont mal écrits. Le manque de normalisation de la concaténation pose problème, car la concaténation est le seul moyen de spécifier des choses.

Un résultat important de Ulises Ali Mejias (une étudiante qui a fait une étude par entretiens, mais sur un tout petit panel :  A del.icio.us study Bookmark, Classify and Share:  A mini-ethnography of social practices in a distributed classification community) est que le mixage de tags ultra-spécifiques et de tags généraux est un moyen efficace de garder la singularité qui fait la richesse de delicious et de garder la compréhensibilité des tagages.

 

Google, pour améliorer la pertinence des émissions de tags (de marqueurs) a inventé un jeu qui s’appelle Image Labeler, et qui permet de trouver quels sont, pour une photo donnée, les tags qui sont le plus massivement utilisées. En exploitant l’excitation ludique, Google peut ainsi faire travailler les travailleurs intellectuels.

http://images.google.com/imagelabeler/

D’autres travaux ont étudié la distribution par une loi de puissance des tags.

Ainsi Adam Mathes

 

 

Certains travaux (Voss Jakob 2006) étudient l’efficacité ou la pertinence du système de classification :

Par exemple, ils disent que le système taggage collaboratif pur présente des défauts ; du coup il faut le mâtiner avec du hiérarchique ; c’est ainsi que certains proposent d’introduire un mode de classification facettée.

Facetious est un plug-in qui permet de rajouter de rajouter un peu d’organisation dans le système « plat » des tags collaboratifs ; il introduit des facettes par genre de tags : facetious is a reworking of the del.icio.us database, which makes use of faceted classification, grouping tags under headings such as "by place" (Iraq, USA, Australia), "by technology" (blog, wiki, website) and "by attribute" (red, cool, retro). 

 

2)      Guy et Tonkin (D-Lib) ont étudié les motivations des posteurs de tags dans delicious : elles sont en grande partie altruistes ; mais il y a des motivations égoïstes (je tagge pour moi-même).

 

 

 

3)      Des travaux permettent de mieux comprendre le croisement des intérêts et le partage des goûts sur Delicious :

 

Des auteurs de dispositifs de visualisation permettant d’orienter del.icio.us vers l’exploration curieuse sont aussi des auteurs de statistiques intéressantes sur la façon dont se distribuent les signets partagés. Ainsi, Kiddphunk a calculé que l’espace des liens partagés entre lui et les autres utilisateurs fait apparaître une loi de puissance : une grosse partie des liens qu’il partage le son avec un utilisateur, et il partage très peu de liens avec la plupart des autres utilisateurs

Erreur ! Référence de lien hypertexte non valide.

http://www.mandalabrot.net/delicious/graphs.html

 

 

 

4)      Des travaux portent sur l’évolution des tags lorsqu’une référence devient de plus en plus populaire

Ainsi ceux qui montrent la convergence des taggages. Une tendance à la convergence liée au mélange des gens. Des travaux de linguistiques appuient cette hypothèse. Notamment Stephane PINKER : Anecdotal evidence [11] supports the view that there is a natural tendency towards the convergence of tags and that strategies to facilitate this development exist. Stephen Pinker in his text The Language Instinct [12] discusses pidgin (a combination of words from other languages absent of any stable grammatical structure) and creole (a combination of words from other languages with a unique grammar imposed) languages. He argues that creole will come from pidgin if people are given the chance to speak to others.

Golder et Huberman (HP Labs) font des statistiques sur les usages de tags. Il s’en dégage une très forte hétérogénéité des pratiques : parmi les utilisateurs qui ont beaucoup de signets il y en a qui font beaucoup de tags; d’autres très peu. Il y a une variété des attitudes possibles face au tag (constipée ou laxiste) ce qui est un argument pour signaler un défaut de qualité de l’auto-indexation. L’article de Golder et Huberman délivre un résultat intéressant (mais que l’on pouvait facilement deviner) : les gens étiquettent un document en partant du tag le plus général pour ensuite se diriger vers des tags plus précis (le rang du tag est inversement proportionnel avec le nombre de fois qu’il est cité). Mais le résultat le plus intéressant de l’étude de Golder et Huberman concerne l’évolution de la distribution des tags lorsque le nombre de citations d’une même url augmente. On constate que à partir d’un nombre relativement bas de citations de la même url (100 bookmarks), la proportion relative des différents tags utilisés pour le décrire se stabilise, et devient très stable. C’est un résultat très intéressant qui rend plus optimiste sur la fiabilité de l’étiquetage obtenu avec la folksonomy. En effet, pour les url qui sont cités un nombre supérieur à 100 fois, ce qui est peu, il y a une relative objectivité et une robustesse de l’étiquetage. En donnant deux arguments opposés, l’un signalant la médiocre qualité de l’étiquetage (les gens n’ont pas les mêmes patterns de taggage), l’autre insistant sur la robustesse du taggage lorsque le nombre de citations est supérieur à 100, l’article permet de donner des indications plus précises sur la qualité dans Delicious.

 

 

 

 

Bibliographie :

Mathes, Adam, 2004, « Folksonomy – Cooperative Classification and Communication througs shared Metadata”, working paper, Computer Mediated Communication, Graduate School of Library and Information Science, University of Illinois Urbana – Champaig

Ali Mejias Ulisses, 2004, “Bookmark, Classify and Share : A mini-ethnography of social practices in a distributed classification community”

Shen, Kaikai, Wu Lide, 2004, “Folksonomy as a Complex Network”, Fudan University, Shangaï.  

Marlow, C., Naaman, M., Boyd, D., Davis,  M.,”Position paper, Tagging, Taxonomy, Flickr, Article,

Voss Jakob, 2006, “Collaborative thesaurus tagging the Wikipedia way”, Wikimedia Deutschland e.V.

"A Del.icio.us study : A mini-ethnography of social practices in a distributed classification community"

La pensée sauvage : sur les éthnoclassifications des primitifs.

BOULLIER, L’outre lecture. Notamment son protocole.