Que penser des sondages d’opinion?

Les sondages ont toujours fait couler beaucoup d’encre. L’encre de ceux qui les font, de ceux qui les commentent, et même de ceux qui les critiquent.

A l’issue(*) d’une élection européenne importante, je me propose d’essayer de tirer le vrai du faux sur cette épineuse question. Nous allons voir qu’il en va des sondages un peu comme des méthodes de contraception : l’efficacité théorique a beau être quasi parfaite, l’efficacité pratique laisse à désirer… pour tout un tas de raisons qu’il conviendra de tirer au clair. Il faut donc distinguer :

  • La validité statistique de la méthode employée
  • La façon dont la méthode est mise en œuvre, avec quelles contraintes temporelles, économiques et humaines
  • Le postulat philosophique derrière le sondage d’opinion
  • L’interprétation et l’utilisation qui en sont faites

Les instituts d’études et d’opinion comme l’IFOP, IPSOS, GALLUP, BVA, ODOXA, TNS SOFRES, KANTAR, etc. produisent ce qu’on appelle des sondages d’opinion. Contrairement à l’INSEE (institut national de la statistique et des études économiques) qui produit des études, travaux beaucoup plus fouillés et détaillés sur les évolutions de la société. Il existe également des sociétés de consultants (ex : Liegey Muller Pons, Filteris…) spécialisées dans des domaines particuliers.

Les instituts de sondage ne s’occupent que peu d’opinion politique, la plus grande partie de leur chiffre étant réalisé pour des clients Corporate (marques, produits,  etc.) mais aussi pour des clients publics (collectivités (projets d’urbanisme), ministères (impact de mesures ex : domaine de la santé)). Le sondage politique n’est pas en fait une question « existentielle » pour ces instituts, ce n’est qu’une petite partie de leur travail. Toutefois, les sondages politiques par leur médiatisation leur confèrent une bonne notoriété auprès du public. Les sondages électoraux sont financés par des médias (Le Figaro, Paris Match, Le Point, etc.), voire des partis politiques eux-mêmes, ce qui pose un problème éthique évident dans les deux cas.

Comment fonctionne un sondage ? Eh bien on tire au sort (en pratique on tire dans une grande base de participants réguliers dont on dispose) un nombre de participants compris entre 800 et 2000, et on leur pose les questions voulues (parfois en mélange avec d’autres études qui n’ont rien à voir…). Cela se passe d’une des trois manières suivantes :

  • Sondage par interview face-à-face (plutôt utilisé dans les études de l’INSEE), très cher !
  • Sondage par téléphone (études et sondages), entre 10 et 20k€
  • Sondage par internet auto-administré (plutôt utilisé dans les sondages), 3 à 6k€

Il est évident que le dernier est le moins fiable car personne ne contrôle ce que fait le répondant. Toutefois, il existe un cadre légal pour la publication de sondages d’opinion, a fortiori en période électorale, qui dépend de la Commission des Sondages (organisme collégial indépendant) qui vérifie les mentions et la méthodologie avant publication. Tous les sondages publiés donnent les grandes lignes de la méthode utilisée : on sait toujours de laquelle des 3 techniques ci-dessus il s’agit, et le nombre de personnes interrogées, ainsi qu’un tableau de marges d’erreur, le minimum syndical !

Donc imaginons une situation parfaite, où tout est contrôlé et toutes les hypothèses vérifiées. Dans ce cas idéal, la seule source d’erreur provient du hasard de l’échantillonnage. C’est-à-dire, que par hasard, vous tirez 240 personnes pro-Macron au lieu de 190 à 220 habituellement. Plus l’échantillon est grand, plus l’impact du hasard sera petit, si vous interrogez toute la France, erreur d’échantillonnage zéro ! La théorie statistique donne là-dessus des formules incontestables : pour 1000 personnes, un score de 30% peut varier à cause du hasard de +/- 3 points (soit entre 27% et 33%). Un résultat plus petit comme celui pour l’UPR aura une erreur plus faible en absolu : par exemple 2% plus ou moins 1.4% soit entre 0.6 et 3.4%. Mais cet intervalle est un intervalle dit « à 95% », c’est-à-dire qu’une fois sur 20, l’erreur est plus grande que l’intervalle annoncé. Mais bon, cela reste faible. Prenons l’exemple de l’UPR : si 5 sondages indépendants de 1000 personnes nous donnent à 2%, cela revient à un sondage de 5000 personnes, et la marge d’erreur chute à 0.6 point d’après le tableau 1.

Pour avoir des marges d’erreur aussi faibles, les instituts utilisent la technique des quotas : c’est un peu compliqué à comprendre, mais il se trouve qu’on se trompe moins si au lieu de prendre 10 personnes au hasard, on interroge plutôt 5 hommes et 5 femmes ! Les variables utilisées sont le sexe, la CSP, la région, et on pourrait dire qu’à chaque nouvelle variable de quota on laisse un peu moins de « place » au hasard de l’échantillon.

Aujourd’hui, les instituts préfèrent travailler en « rolling », c’est-à-dire avoir de petits échantillons de 1000-1500 personnes qu’on interroge toutes les semaines, ce sont les mêmes personnes, donc le biais d’échantillonnage ne joue qu’une seule fois au début, et les variations d’une semaine à l’autre sont beaucoup plus justes.

Au final, ces formules statistiques donnent des ordres de grandeur de ce à quoi on peut s’attendre. On peut imaginer que pour des raisons de méthodologie et d’effets non maitrisés, le score d’un parti à l’instant t puisse déborder de la marge d’erreur, voire même peut-être atteindre deux fois la marge d’erreur, mais pas au-delà. Un parti qui recueille 25% d’opinions de sondés n’est pas en réalité à 15%, c’est impossible, un parti qui pointe à 0.5% ne peut pas être à 5%. Il faut se rappeler que lors de la présidentielle, les sondages avaient donné l’UPR à 1%, et avaient vu juste, idem pour Macron à 23%. Attention toutefois, car la façon dont est utilisé un sondage a beaucoup à voir avec ce constat.

Réserves en situation réelle

On a vu le cas « idéal ». A présent il faut savoir que de nombreux facteurs peuvent influencer le résultat affiché d’un sondage, de façon plus ou moins floue. Aucun des facteurs suivants n’apparaît dans les comptes-rendus d’études :

  • La non-réponse : les non-répondants (ou « ne sait pas ») ont-ils une structure particulière ?
  • L’auto-censure ou le mensonge : certaines personnes votent-elles pour un candidat non présent dans la liste, ou disent-elles autre chose que leur souhait par pudeur ou par stratégie ?
    • Dans ces cas, est-ce que les résultats ont subi des modifications, comme un redressement pour la non-réponse ou l’auto-censure ; et si oui sur quelles hypothèses sont basées ces corrections (ex : par rapport à une élection précédente ? Ou une formule empirique qui semble marcher ?)
  • Selon quels critères certaines réponses ont pu être exclues des résultats ?
  • Quel a été le taux de réponse des personnes ? A-t-on été obligé de réélargir l’échantillon en cours de sondage ? (si c’est le cas par paresse les sondeurs vont « pêcher » dans les catégories de population les plus faciles à joindre !)
  • Les personnes interrogées sont-elles un panel récurrent ou des personnes « nouvelles » à chaque sondage ? A quel moment de la semaine/journée ont-elles été interrogées ? Le sondage était-il mélangé à d’autres études sans rapport ?
  • Qui a rédigé les questions et leur formulation, le choix des photos éventuellement ?
  • Dans quel ordre les questions (ou les candidats à choisir) ont-elles été posées, y-a-t-il eu randomisation de l’ordre ?
  • Quel est le mode de rémunération des répondants, si c’est le cas ?
  • Quel est la performance réelle de ce type de sondage par l’institut qui le fait : c’est-à-dire quelle est l’erreur/biais moyen réel observé si par exemple on compare à un échantillon 10 fois plus grand ou si on enquête sur les non-répondants?

Bref, un certain nombre d’éléments potentiellement impactant restent inaccessibles au public, et c’est dommage. Les instituts se défendent en disant que ce sont là leurs « secrets de fabrication » ou avancent des motifs de concurrence pour éviter d’en dire trop. Et encore, on se limite ici uniquement à de « bêtes » sondage où l’on demande de choisir un candidat parmi plusieurs, ne parlons même pas des sondages avec questions ouvertes…

Tout ceci amène à la question « philosophique » du sondage d’opinion, que sonde-t-on en réalité?

Et quelle est la légitimité pour une démocratie de baser son fonctionnement sur la réponse obtenue en 30 secondes au téléphone auprès de 900 personnes, et représentant une photo à l’instant t (évolutive au gré de l’actualité, voire d’un tweet d’un homme politique…) ? A ce titre il faut relire l’excellent article de Bourdieu (1972) sur la question des sondages d’opinion, dont je cite un extrait :

« Toute enquête d’opinion suppose que tout le monde peut avoir une opinion ; ou, autrement dit, que la production d’une opinion est à la portée de tous. Quitte à heurter un sentiment naïvement démocratique, je contesterai ce premier postulat. Deuxième postulat : on suppose que toutes les opinions se valent. Je pense que l’on peut démontrer qu’il n’en est rien et que le fait de cumuler des opinions qui n’ont pas du tout la même force réelle conduit à produire des artefacts dépourvus de sens. Troisième postulat implicite : dans le simple fait de poser la même question à tout le monde se trouve impliquée l’hypothèse qu’il y a un consensus sur les problèmes, autrement dit qu’il y a un accord sur les questions qui méritent d’être posées. Ces trois postulats impliquent, me semble-t-il, toute une série de distorsions qui s’observent lors même que toutes les conditions de la rigueur méthodologique sont remplies dans la recollection et l’analyse des données. »

Les sondages servent à mesurer la force des différentes formations politiques en présence, afin de leur permettre d’ajuster leur stratégie mais surtout de permettre aux médias d’accorder du temps de parole proportionnel à chacun. Ce dernier point est hautement discutable et fait l’objet d’une bataille juridique menée par l’UPR, qui est connue de nos sympathisants. Personne n’imaginerait en effet n’attribuer les temps de parole que sur la foi du nombre d’adhérents revendiqués par chaque parti, pourtant on le fait avec les sondages… L’importance donnée par les sondages dans la médiatisation est aujourd’hui disproportionnée par rapport à d’autres indicateurs tout aussi pertinents comme la dynamique sur les réseaux sociaux ou sur le terrain, le nombre d’adhérents, le taux d’engagement, la faculté d’amener des thèmes qui intéressent aux français, le nombre de condamnations judiciaires, le nombre d’élus locaux, etc. Il est vrai que le pullulement des sondages renforce le cercle vicieux du prétendu vote « utile » et nuit aux petits candidats.

Un sondage n’est pas à prendre comme une prédiction de vote, d’ailleurs la question posée « si le vote avait lieu aujourd’hui, pour qui voteriez-vous ? » est une fiction par définition… puisque le vote est plus tard. Régulièrement, des internautes s’émeuvent et suggèrent l’interdiction pure et simple des sondages, solution radicale qui se heurte à l’impossible mise en œuvre pratique (internet étant libre, il suffirait d’héberger le sondage sur un serveur étranger…). Le problème n’étant pas, comme on l’a vu, tant leur diffusion que leur utilisation médiatique à mauvais escient.

En conclusion, les instituts de sondage sont utiles mais pêchent par manque de transparence, la méthodologie reposant sur des bases scientifiques indiscutables mais dont les hypothèses peuvent être violées en pratique. Ils fournissent une évaluation à peu près correcte des rapports de force ; ils sont plus fiables pour suivre des dynamiques temporelles entre candidats au cours d’une campagne que pour des prédictions de vote en valeur absolue. Les instituts sont mis en concurrence entre eux, ce qui pousse à la baisse des coûts et l’utilisation croissante de solutions en ligne moins fiables (30% des études aujourd’hui). Les différents intérêts des commanditaires et le contrôle a minima ne permettent pas de créer un climat de confiance dans cette information qui sert pourtant de base de calcul aux temps de parole médiatiques. Cette vision « monoculaire » participe à polariser le paysage politique toujours dans le même sens, à privilégier l’immédiateté, ce qui nuit à l’expression démocratique.

Voila, j’espère vous avoir éclairé un peu…

Un adhérent délégation 63

(*Note: ce texte a été rédigé avant les élections européennes. La seule modification a été de remplacer « A l’approche d’une élection » par « à l’issue d’une élection » à la ligne 4.)