Damien Nouvel Girouette de l'INALCO Damien Nouvel

Maître de conférences, Inalco, Paris, France

"La prédiction est un exercice très compliqué, en particulier quand elle concerne le futur." (N. Bohr)

> English website...

Mots et arguments du grand débat national

Contexte général et méthodologie

Le grand débat national a été l'occasion de mettre en place des plateformes contributives, soit à l'initiative du gouvernement sur https://granddebat.fr ou à l'initiative d'un collectif de gilets jaunes sur https://le-vrai-debat.fr. Les données ont été de part et d'autre mises à disposition, elles peuvent donc être téléchargées, puis analysées.

Cette page propose des analyses préliminaires sur ces données. Elle vise à fournir une vision aussi objective que possible des jeux de données, en utilisant des méthodes de calcul indépendantes de tout parti pris. Les codes et données sont en ligne dans cette archive.

Les étapes de la méthode sont les suivantes :

  1. téléchargement des contributions à partir de données ouvertes fournies sur les deux sites,
  2. extraction des textes des questions ouvertes / libres,
  3. traitements linguistiques simples mais assez fiables (avec TreeTagger)
  4. découpage en phrases,
  5. dédoublonnage des contributions et des phrases.
  6. lemmatisation pour ne conserver que les formes "normales" des mots (forme du dictionnaire : infinitif, masculin, singulier),
  7. sélection de catégories grammaticales : noms communs, verbes et adjectifs,
  8. filtrage des mots ayant 5 occurrences ou moins dans tout le corpus
  9. tri des mots les plus spécifiques à chaque site, par contraste et calcul d'un score de spécificité.

Les étapes 1 à 5 sont utilisées pour quantifier les données (ci-dessous), puis les étapes 6 à 9 sont utilisées pour les calculs de spécificités (cf infra).

Volumes des données et tailles des contributions

Les sources que nous avons exploitées nous apportent deux jeux de données assez volumineux (uniquement les questions ouvertes / libres) qui comportent respectivement les volumes suivants (contributions dédoublonnées) :

Jeu Contributions Phrases Mots
GDN 329 K 1161 K 29 M (28 836 K)
VD 98 K 256 K 6 M (5 625 K)

Nous voyons clairement des volumes bien supérieurs du côté du grand débat, autour de 3/4 fois plus que pour le vrai débat (à noter que nous avons repéré 211 contributions identiques entre les deux sites). Nous pouvons également regarder de plus près la longueur des contibutions en nombre de tokens (mots et ponctuations) : elles font en moyenne 99 tokens pour le grand débat, et 64 pour le vrai débat (au niveau des longueurs de phrases, 28 et 25). Nous pouvons pousser cette comparaison des deux jeux de données sur les contributions les plus courtes :

Segmentation en espaces / thèmes

Les deux sites proposent des segmentations, des « espaces de participation » pour le grand débat national, des « thèmes » pour le vrai débat, dont voici les répartitions :

Nous pouvons assez facilement regrouper les textes par thèmes, puis constuire une matrice des espaces / thèmes selon les mots (filtrés : noms communs, verbes, adjectifs) qu'ils contiennent, la transformer (TF.IDF) puis la projeter (PCA) sur un graphique à deux dimensions :

Cette projection donne un premier aperçu (forcément réducteur) des espaces / thèmes et de leurs proximités. Nous y constatons que des thèmes similaires au travers des deux sites sont proches, et que les thèmes du vrai débat sont centraux, tandis que ceux du grand débat national s'écartent de part et d'autre. Il faut cependant garder à l'esprit que cette visualisation est fortement dépendante de la méthode de projection choisie.

Termes spécifiques GDN vs VD

La méthode des spécificités, maintenant bien établie en textométrie, permet d'attribuer des scores aux mots, selon leur présence (fréquence) dans une partie au sein d'un corpus (pour les curieux/matheux, logarithme base 10 de la fonction de répartition de la loi hypergéométrique). Cette méthode permet d'extraire les mots qui caractérisent chacune des parties. L'utilisation de cette méthode sur nos deux sources de contributions permet d'extraire, de part et d'autre, les mots les plus spécifiques :

Côté grand débat, on constate très clairement que la thématique écologique est prépondérante. On y relève également un vocabulaire lié à l'état (administration, taxe, fonctionnaire, public). Pour le vrai débat, c'est bien plus varié, avec un vocabulaire lié à la démocratie (candidat, constitution, référendum, souveraineté), à l'éducation (enfant, prof, élève), ou encore la présence de thèmes sociétaux (religion, homosexuel). Je laisse à d'autres le soin d'y regarder de plus près, d'analyser les données (avec ou sans outils / méthodes) et nous livrer leurs analyses et interprétations...

Salutations à mon homonyme sur le net, carreleur de profession : https://www.eurlnouveldamien.fr :)