Damien Nouvel Damien Nouvel

Maître de conférences, Inalco, Paris, France

"Se demander si un ordinateur peut penser est aussi intéressant que de se demander si un sous-marin peut nager" (E. Dijkstra)

> English website...

Les mots des sites de la campagne présidentielle 2017

Contexte général et méthodologie

La campagne présidentielle française 2017 a fait l'objet de nombreuses analyses et études, dont beaucoup reposent sur la sélection de portions des programmes et une interprétation liée à l'auteur de l'étude. J'apporte ici une toute petite étude, mais avec des exigences fortes en terme d'objectivité, de simplicité et de reproductibilité. L'intégralité du code utilisé est disponible sur un dépôt github (à adapter aux sites) et peut-être exécuté sur une machine simple sous Ubuntu (en installant TreeTagger, les sites ont probablement été modifiés depuis, je tiens les données à disposition à la demande).

Les étapes de la méthode sont les suivantes :

Termes spécifiques par site

Voici les 20 termes les plus spécifiques pour chaque site :

J'ai songé à de nombreux autres calculs, mais voilà déjà ce qui ressort de la méthode textométrique la plus classique, proposée par Lafon (1980) et qui n'a pas été conçue pour un discours ou un évènement particulier. Pour aller plus loin, il pourrait être intéressant d'appliquer ces calculs aux sites deux à deux, ce qui permettrait de positionner les termes dans une visualisation adaptée en 2D...

Interprétation des résultats

Je ne m'y risque pas - mais je suis sûr que chacun y trouvera son compte :)

Notes complémentaires

Version du 19 avril à 23h

Version du 20 avril à 15h