TAL et Wikipédia

Présents : Julien Levrel (FT R&D), Nicolas Auray (ENST), Céline Poudat (CORAL), Christophe Prieur (LIAFA), Pascal Pons (LIAFA), Fabien Baille (LIAFA), Elie Naulleau (Semyosis), Nicolas Pissard (FT R&D), Marie Guegan (LIMSI), Sylvain Loiseau (PX/LIMSI), Bernard Desgraupe (Paris X), Matthieu Jacomy (RGTI/UTC), Dominique Cardon (FT R&D), Matthieu Latapy (LIAFA), Emmanuel Ruzé (CRG), Martine Hurault-Plantet (LIMSI), Christophe Martinetto (FT R&D), Sébastien Bertrand (FT R&D), Michèle Jardino (LIMSI), Christophe Auiton (FT R&D).

Ordre du jour:
1.
TAL wikipediesque (Benoit Haber)
2.
 Traitement statistique de textes : identification d’auteurs (Michèle Jardino)
3.
Réseau de catégories sur la base wikipedia (Elie Naulleau)
4.
Le web 2.0 (Sébastien Bertrand)
5.
Point divers - organisation
(Voir aussi la page )

I. TAL wikipediesque (Benoît Haber)

Les transparents de la presentation sont disponible sur: http://www.limsi.fr/Individu/habert/Projets/Autograph/index.html

Galop d’essai sur du texte wiki : pages « Philo » de Wikipedia
224 articles de 4 catégories (branche de la philo, histoire de la philo…) 130 000 mots (1 roman).
Type d’entrée : Auteur, Ecole, Notion, Ouvrage, Navigation wikipedienne
Possibilité d’utiliser les méta données du html comme des données
Export du texte : textualisation brutale et dépoussiérage
Etiquetage avec lemmatisation… Etiqueteur Cordial,
Comment faire des réseaux à partir des étiquettes ?
- Choix des nœuds : page/mot de départ / mots racinisés / lemmes / lemmes étiquetés
- Choix d’une relation : co-occurence (deux nœuds dans la même phrase)
 - lien sémantique local : étudiants ou lycéens
- lien sémantique global : Foucault=philosophe
Indice d’information mutuelle : deux mots qui s’attirent
Fenêtre glissante de 20 mots au sein de chaque article.

Pistes de recherche :
- ne pas partir du texte html / remplacer le parseur pour nettoyer le texte : éliminer certains objets textuels, transformer finement les textes (liens interne, lien externe, obtenir un texte… plus textuel).

- Classification non supervisée : ne pas partir d’une catégorie mais de Wikipedia en global
- Identifier les pages ressemblantes
- graphe en gml sur le site de Benoît Haber

Discussion :
- ce genre d’analyse permet de repérer les scories, d’identifier différents type de co-occurrence (signification différente du lien de co-occurence)

2. Michèle Jardino (LIMSI) : Traitement statistique de textes : identification d’auteurs
Recherche sur un défi : Discours de Chirac / Mitterrand
600 discours de Chirac "pollués" par des discours de Mitterrand
Modèle n-grammes de mots : regarder le flux des mots en étudiant la probabilité des mots en fonctions des mots précédents.
Deux modèles de n-gramme : un pour Chirac et un pour Mitterrand.

Discussion :
Est-ce que cette méthode pourrait être utile pour identifier la qualité des articles de Wikipedia : un article non abouti est un article au style hétérogène…

3. Elie Naulleau (Semyosis) : Trituration de la base wikipédia
Voir le document d’Elie…trituration_wikipedia_semiosys170306.pdf

4. Sébastien Bertrand, Christophe Aguiton, Dominique Cardon (FT R&D) : Web 2.0
Présentation power-point

Discussion : 

  • remarque de Julien Levrel : dans del.icio.us il n'est pas possible de rentrer en relation avec les utilisateurs qui laissent les mêmes tags que moi.
  • Faire un topo "folksonomy" sur le blog Autograph (del.icio.us, Flickr, Technorati) + enjeux de recherche ?
  • Quels corpus de tags pourrait-on étudier ? Comment les récupérer ?
  • Quels services (de visualisation) pourrait-on proposer aux utilisateurs de Flickr ou del.icio.us ?
  • Ch. Aguiton : nuages de tags / folksonomy - étudier les pistes possibles, organiser les réseaux de tags par grands chapitres / centres d'intérêts, organiser un groupe de travail sur ce sujet ?


5. Point divers

Discussion du travail sur la base Wikipédia (voir cr réunion du 7 mars 2006)
Travailler chacun sur la base Wikipedia pour se familiariser avec la base et proposer des outils.
Accès aux données à travers DVD et données et codes déposées sur GForge.
Mise en place d’un groupe de travail Wikipedia.
Julien recherche une date pour le groupe de conception avec wikipédiste (6 mai ?).

Tour de table sur les actions engagées par les différents partenaires dans et autour d'Autograph :

FT R&D
Wikipedia : Julien Levrel
Blog : Dominique Cardon, Hélène Delaunay, Christophe Martinetto (stage)
Militants : Dominique Cardon, Christophe Aguiton
Flickr : Sébastien Bertrand

LIAFA
Fabien et Toufik : Wikipédia
Flickr : Pascal Pons (stage à FT R&D à partir de juillet)

ENST
Hot line communauté d’utilisateurs – résolution de problèmes : Bernard Conein et Matthieu Latapy. Ingénieur travail sur les listes
Jeux en ligne de Social Media (joueuses de Sims)
Wikipedia
Questions de recherche : 1. coopération et qualité, 2. vandalisme (confiance), Délibération/concertation

LIMSI
Wikipedia : tous
Faire une version dump instalable
Rassembler les informations sur les contributeurs et les pages
Contournement du parseur de départ / pour fournir des réseaux de mots

INRIA
Wikipedia


Prochaine réunion Autograph – 18 avril

- Foire au questions/réponses sur Wikipedia (Tous)
- Présentation de Semiophore (Semiosys)
- Première approche graphe sur wikipédia (LIAFA)
- Point extraction des blogs.

Présentation pour réunion de mai:
-UTC/RGTI
- Problématique sociologie

Mise en place d'un atelier de réflexion : gouvernance/régulation des grands collectifs (pilotage Nicolas-Dominique) - date de réunion à suive

Répondre à cet article