Damien Nouvel
MCF en TAL, Inalco, Paris, France
La réplication est très difficile, en particulier après la première occurrence (S. Mizzaro)
Les mots des sites de la campagne présidentielle 2017
Contexte général et méthodologie
La campagne présidentielle française 2017 a fait l'objet de nombreuses analyses et études, dont beaucoup reposent sur la sélection de portions des programmes et une interprétation liée à l'auteur de l'étude. J'apporte ici une toute petite étude, mais avec des exigences fortes en terme d'objectivité, de simplicité et de reproductibilité. L'intégralité du code utilisé est disponible sur un dépôt github (à adapter aux sites) et peut-être exécuté sur une machine simple sous Ubuntu (en installant TreeTagger, les sites ont probablement été modifiés depuis, je tiens les données à disposition à la demande).
Les étapes de la méthode sont les suivantes :
- téléchargement des sites des 5 candidats disposant des meilleurs sondages,
- extraction des textes des sites (on écarte les codes informatiques : balises, etc.),
- élimination des redondances d'énoncés : chaque phrase ne peut apparaître qu'une fois,
- lemmatisation pour ne conserver que les formes "normales" des mots (tout mot est ramené à sa forme dans le dictionnaire : infinitif, masculin, singulier),
- sélection de catégories grammaticales : noms communs, verbes et adjectifs,
- sélection du vocabulaire commun à tous les sites,
- ré-échantillonnage : selon le site le plus volumineux,
- tri des mots les plus spécifiques à chaque site, par contraste et calcul d'un score de spécificité (pour les curieux /matheux :) le logarithme base 10 de la fonction de répartition de la loi hypergéométrique sur les fréquences des mots au travers des parties - pour les autres, du jargon mais une formule statistique bien établie en textométrie).
Termes spécifiques par site
Voici les 20 termes les plus spécifiques pour chaque site :
- benoithamon2017 (4075 mots) : don (305.00), citoyen (285.87), battre (284.71), gauche (257.48), proposition (170.11), santé (164.84), campagne (138.33), universel (124.84), cœur (122.06), rencontrer (121.10), informer (111.38), rencontre (109.17), idée (109.01), transparence (93.45), presse (90.16), agricole (89.92), retrouver (87.87), transition (85.78), écologique (78.84), médias (72.62)
- en-marche (178183 mots) : dire (142.61), aller (100.03), chose (61.85), transformation (53.49), réussir (44.31), même (36.93), sommer|être (34.22), défi (33.02), parler (31.33), penser (29.06), responsabilité (21.41), terrain (19.93), gens (19.47), construire (17.41), fond (15.61), problème (13.56), suivre|être (13.23), changer (11.66), besoin (11.24), combat (10.40)
- fillon2017 (22572 mots) : développer (143.33), établissement (132.83), renforcer (131.16), encourager (111.20), charge (110.95), entreprise (105.46), numérique (98.55), logement (89.49), professionnel (85.47), développement (84.93), réduire (81.64), favoriser (69.41), réforme (69.23), dépense (68.49), plafond (67.20), effort (65.06), technologie (63.28), place (58.96), dispositif (57.37), augmenter (57.19)
- jlm2017 (27837 mots) : programme (244.06), vidéo (242.29), populaire (151.94), partir (139.53), groupe (129.31), être (121.52), commun (110.51), mars (109.81), février (92.10), vote (87.94), ligne (82.49), marche (78.52), organiser (77.57), membre (62.13), thématique (54.88), parlement (54.80), mardi (54.29), rapport (51.72), traité (50.97), prévoir (50.04)
- marine2017 (46647 mots) : français (89.88), national (61.01), frontière (53.67), liberté (51.01), commune (35.46), produit (31.07), priver (30.15), réalité (26.73), seul (26.35), élection (23.98), sécurité (22.50), voir (22.15), pays (21.41), livrer (20.61), sol (19.17), puissance (18.93), voie (17.42), nom (17.36), violence (17.27), financier (16.95)
J'ai songé à de nombreux autres calculs, mais voilà déjà ce qui ressort de la méthode textométrique la plus classique, proposée par Lafon (1980) et qui n'a pas été conçue pour un discours ou un évènement particulier. Pour aller plus loin, il pourrait être intéressant d'appliquer ces calculs aux sites deux à deux, ce qui permettrait de positionner les termes dans une visualisation adaptée en 2D...
Interprétation des résultats
Je ne m'y risque pas - mais je suis sûr que chacun y trouvera son compte :)
Notes complémentaires
- L'extraction des sites a été faite dans la nuit du 18 au 19 avril 2017
- Les URLs de sites téléchargés sont :
- Au cas où vous ne l'aviez pas remarqué, je vous confirme que les sites sont simplément triés par ordre alphabétique...
- Les versions mises successiveement en ligne (cf ci-dessous pour comparaison) :
- 19 avril à 23h : données brutes sans rééchantillonnage avec noms communs, verbes, adjectifs et adverbes - une seule des spécificités pour le site en-marche,
- 20 avril à 15h : avec rééchantillonnage pour que tous les sites, malgré leurs volumes variés, aient le même poids statistique,
- 21 avril à 11h : suppression des adverbes qui apportent peu aux analyses en première lecture (donc, beaucoup, parfois, que, encore)
- Ce travail ne représente que quelques heures de travail et n'est, bien sûr, pas exempt d'améliorations possibles, mais les résultats sont donnés volontairement bruts, tels qu'en sortie du programme.
Version du 19 avril à 23h
- benoithamon2017 (4452 mots) : physique (17.46), don (14.56), citoyen (11.54), battre (9.20), gauche (8.92), campagne (7.50), informer (6.77), proposition (6.35), santé (6.18), grève (5.65), rencontrer (5.53), rencontre (5.00), universel (4.96), agricole (4.51), valider (4.31), presse (4.22), gouvernance (4.14), conférence (4.09), transparence (3.98), réseau (3.93)
- en-marche (208470 mots) : transformation (1.07)
- fillon2017 (24401 mots) : établissement (16.08), renforcer (13.78), développer (13.44), développement (11.84), encourager (11.50), technologie (10.99), plafond (10.42), rural (10.13), dispositif (8.88), favoriser (8.51), notamment (8.20), dépense (7.91), handicap (7.80), faveur (7.78), logement (7.39), étranger (7.32), charge (7.25), faciliter (7.09), priorité (7.00), entreprise (6.97)
- jlm2017 (31146 mots) : vidéo (40.68), programme (34.59), groupe (28.58), savoir (27.45), populaire (22.68), vote (20.52), traité (19.97), mars (13.91), thématique (13.27), commun (12.49), parlement (12.27), partir (11.69), février (11.32), mardi (10.84), que (10.55), diffuser (10.41), journée (10.36), ligne (10.29), suite (10.23), organiser (9.36)
- marine2017 (52948 mots) : produit (11.68), frontière (8.42), national (8.01), priver (7.62), communiquer (7.35), commune (6.40), soutien (6.22), interdire (5.06), clandestin (4.91), sol (4.81), campagne (4.75), livrer (4.51), pourtant (4.48), refuser (4.42), bleu (4.23), financier (4.22), indépendance (4.12), menacer (4.08), main (3.83), soumettre (3.52)
Version du 20 avril à 15h
- benoithamon2017 (4452 mots) : citoyen (321.90), battre (317.91), gauche (290.08), proposition (194.71), santé (190.69), campagne (163.53), cœur (141.80), universel (140.94), rencontrer (137.41), pic (133.35), idée (124.85), rencontre (124.31), informer (122.64), transparence (104.51), retrouver (104.50), presse (104.11), agricole (101.84), transition (98.68), écologique (90.79), médias (81.94)
- en-marche (208470 mots) : dire (144.47), aller (100.34), donc (89.38), beaucoup (76.30), là (69.58), chose (62.74), transformation (53.76), pas (47.45), parfois (47.07), réussir (43.80), sommer|être (34.74), défi (32.76), parler (31.67), penser (29.01), responsabilité (21.07), terrain (19.71), gens (19.58), construire (16.90), fond (15.52), problème (13.78)
- fillon2017 (24401 mots) : développer (165.93), renforcer (151.83), établissement (149.78), charge (129.17), entreprise (126.71), encourager (126.40), numérique (115.97), logement (105.14), professionnel (101.53), développement (99.14), réduire (96.23), réforme (82.18), dépense (79.72), favoriser (79.72), plafond (75.67), effort (74.74), place (73.08), technologie (71.18), publique (67.67), augmenter (67.08)
- jlm2017 (31146 mots) : programme (255.03), vidéo (253.72), populaire (160.09), partir (148.28), être (136.56), groupe (135.36), que (118.96), commun (116.62), mars (115.48), février (97.00), vote (92.00), déjà (89.50), ligne (87.46), marche (82.73), organiser (81.40), ici (71.92), membre (65.39), thématique (57.20), parlement (56.88), mardi (56.64)
- marine2017 (52948 mots) : français (90.27), national (59.98), frontière (54.45), liberté (51.56), encore (39.38), commune (35.73), produit (30.58), priver (30.15), bien (29.25), réalité (27.35), seul (26.03), élection (24.34), rien (23.91), voir (23.33), sécurité (22.02), pays (21.29), livrer (21.03), jamais (19.62), comme (19.39), sol (19.25)