MCF en TAL, Inalco, Paris, France
La quantité d'énergie nécessaire pour réfuter des idioties est supérieure d'un ordre de grandeur à celle nécessaire pour les produire (A. Brandolini)
Le grand débat national a été l'occasion de mettre en place des plateformes contributives, soit à l'initiative du gouvernement sur https://granddebat.fr ou à l'initiative d'un collectif de gilets jaunes sur https://le-vrai-debat.fr. Les données ont été de part et d'autre mises à disposition, elles peuvent donc être téléchargées, puis analysées.
Cette page propose des analyses préliminaires sur ces données. Elle vise à fournir une vision aussi objective que possible des jeux de données, en utilisant des méthodes de calcul indépendantes de tout parti pris. Les codes et données sont en ligne dans cette archive.
Les étapes de la méthode sont les suivantes :
Les étapes 1 à 5 sont utilisées pour quantifier les données (ci-dessous), puis les étapes 6 à 9 sont utilisées pour les calculs de spécificités (cf infra).
Les sources que nous avons exploitées nous apportent deux jeux de données assez volumineux (uniquement les questions ouvertes / libres) qui comportent respectivement les volumes suivants (contributions dédoublonnées) :
Jeu | Contributions | Phrases | Mots |
---|---|---|---|
GDN | 329 K | 1161 K | 29 M (28 836 K) |
VD | 98 K | 256 K | 6 M (5 625 K) |
Nous voyons clairement des volumes bien supérieurs du côté du grand débat, autour de 3/4 fois plus que pour le vrai débat (à noter que nous avons repéré 211 contributions identiques entre les deux sites). Nous pouvons également regarder de plus près la longueur des contibutions en nombre de tokens (mots et ponctuations) : elles font en moyenne 99 tokens pour le grand débat, et 64 pour le vrai débat (au niveau des longueurs de phrases, 28 et 25). Nous pouvons pousser cette comparaison des deux jeux de données sur les contributions les plus courtes :
Les deux sites proposent des segmentations, des « espaces de participation » pour le grand débat national, des « thèmes » pour le vrai débat, dont voici les répartitions :
Nous pouvons assez facilement regrouper les textes par thèmes, puis constuire une matrice des espaces / thèmes selon les mots (filtrés : noms communs, verbes, adjectifs) qu'ils contiennent, la transformer (TF.IDF) puis la projeter (PCA) sur un graphique à deux dimensions :
Cette projection donne un premier aperçu (forcément réducteur) des espaces / thèmes et de leurs proximités. Nous y constatons que des thèmes similaires au travers des deux sites sont proches, et que les thèmes du vrai débat sont centraux, tandis que ceux du grand débat national s'écartent de part et d'autre. Il faut cependant garder à l'esprit que cette visualisation est fortement dépendante de la méthode de projection choisie.
Côté grand débat, on constate très clairement que la thématique écologique est prépondérante. On y relève également un vocabulaire lié à l'état (administration, taxe, fonctionnaire, public). Pour le vrai débat, c'est bien plus varié, avec un vocabulaire lié à la démocratie (candidat, constitution, référendum, souveraineté), à l'éducation (enfant, prof, élève), ou encore la présence de thèmes sociétaux (religion, homosexuel). Je laisse à d'autres le soin d'y regarder de plus près, d'analyser les données (avec ou sans outils / méthodes) et nous livrer leurs analyses et interprétations...