Un sondage internet de Léger Marketing prédit un taux de participation d'au moins 89 %

Un sondage internet de Léger Marketing prédit un taux de participation d'au moins 89 %

Éric Beaudry
beaudry.eric@uqam.ca
25 août 2012

1. Introduction

Aujourd'hui, je m'improvise sondeur d'un jour! Je vais vous démontrer que les sondages internet sont biaisés. Leur fiabilité est donc discutable!

2. Le Sondage Léger Marketing publié le 25 août 2012

Vous pouvez trouver l'analyse du sondage Léger Marketing publié le 25 août 2012 dans le Journal de Montréal à http://www.legermarketing.com/admin/upload/publi_pdf/%C3%89lection_Quebec_2012_2408-2012.pdf.

Il s'agit d'un sondage empirique par opposition à un sondage probabiliste. Évidemment, les firmes de sondage préfèrent utiliser le terme «non probabiliste» plutôt que «empirique». Ça fait plus sérieux! Après tout, les journaux et les autres médias seraient moins intéressés à acheter et à publier des sondages empiriques!

3. Probabilistes ou empiriques ?

Pour qu'un sondage soit probabiliste, il faut que la probabilité qu'un individu soit sélectionné (sondé) soit connue à l'avance. À noter que la probabilité n'a pas besoin d'être uniforme d'un individu à l'autre. Évidemment, les calculs sont plus simples si tous les individus ont la même probabilité d'être sélectionnés.

La probabilité qu'un individu soit sondé est essentielle pour calculer la marge d'erreur d'un sondage. La marge d'erreur permet d'apprécier la qualité du sondage.

Si cette probabilité n'est pas connue, alors le sondage n'est pas probabiliste. Il s'agit plutôt d'un sondage empirique.

Le problème des sondages empiriques est qu'ils sont potentiellement biaisés, car on doit faire l'hypothèse que chaque individu a la même probabilité d'être sélectionné.

En plus d'être biaisés, les sondages empiriques ne permettent pas d'estimer la marge d'erreur.

Pourtant, on laisse sous-entendre que ces sondages sont tout de même fiables. Jean-Marc Léger a publié deux textes pour défendre la fiabilité des sondages internet :

Pour affirmer que ses sondages sont fiables, Jean-Marc Léger s'appuie sur les résultats des élections générales au Canada en 2011 (voir tableau ci-dessous).

(Source : http://www.ledevoir.com/politique/quebec/356455/la-precision-des-sondages-internet)

Calculer l'écart moyen (1.17%) n'est pas la bonne façon de mesure la qualité du sondage. Pour s'en convaincre, imaginez qu'on aurait listé 100 partis politiques bidons qui auraient été près du 0%. L'écart moyen aurait été très près de zéro!

Pour vérifier si le sondage a fait de bonnes prédictions, il faut plutôt regarder son erreur maximale. Dans le cas présent, c'est une erreur de 4%. À noter qu'un sondage avec 1929 répondants a une marge d'erreur maximale de 2.2%, 19 fois sur 20. L'erreur du sondage Web en 2011 a donc dépassé largement la marge d'erreur typique.

4. Démonstration d'un biais dans le sondage du 25 août 2012

À la page 4 du document d'analyse du sondage Web, on peut retrouver le tableau suivant.

(Source : http://www.legermarketing.com/admin/upload/publi_pdf/%C3%89lection_Quebec_2012_2408-2012.pdf, Page 4)

Sur les 1929 répondants, 2% n'ont pas l'intention de voter, 4% annuleront leur vote, 3% ne savent pas encore pour qui voter, et 2% refusent de répondre à la question. Faisons l'hypothèse que tout ces répondants n'iront pas voter. Si on additionne le tout, cela fait 2+4+3+2=11%.

Ainsi, ce sondage se trouve à anticiper un taux de participation de 89%. Prêt de 90%, rien de moins!

Aux élections générales Québec 2008, le taux était de 57%. Si le même taux de participation était observé en 2012, cela donnerait une erreur de 32%. Pourtant, dans l'analyse du sondage, on affirme que si le sondage était probabiliste, la marge d’erreur [maximale] aurait été de +/- 2,2%, 19 fois sur 20.

Faut-il conclure que les publicités du Directeur général des élections du Québec auront été particulièrement efficaces?

Cela démontre plutôt que ce sondage est très peu fiable pour anticiper le taux de participation le 4 septembre 2012!

5. Hypothèse à l'origine du biais

Évidemment, le biais sur le taux de participation peut s'expliquer intuitivement. On peut supposer que les gens qui ne votent pas ont aussi tendance à ne pas répondre aux sondages. Il est donc normal que le taux de participation soit imprécis.

6. Autres biais potentiels

Le problème des sondages internet est qu'ils peuvent contenir d'autres biais. Il n'est pas exclu qu'ils peuvent aussi se tromper sur les intentions de votes.

La figure ci-dessous présente un réseau bayésien simple. Un réseau bayésien est un graphe qui modélise des relations de dépendance entres des variables aléatoires. Chaque bulle (sommet) représente une variable aléatoire. Chaque flèche (arête) montre une relation de dépendance. Si on choisit un électeur aléatoirement, on peut déterminer ses caractéristiques (âge, sexe, région, langue maternelle, etc.). Évidemment, le vote exprimé dans l'urne le jour de l'élection dépend de l'électeur lui-même.

Généralement, il y a une corrélation entre le vote d'un électeur et ses caractéristiques (âge, sexe, région, langue maternelle, etc.).

Pour tenir compte de ces dépendances, les sondeurs utilisent les données du Recensement du Canada pour s'assurer que les groupe de participants aux sondages soient le représentatif de la population.

Le problème est qu'il est impossible de garantir qu'un échantillon soit parfaitement représentatif. En effet, le fait qu'un électeur a accès à Internet et le fait qu'il décide de participer aux sondages dépendent de sa personnalité. Or, le vote d'un électeur dépend aussi de sa personnalité. Puisque ces variables peuvent être corrélées, il y a un biais potentiel.

8. Sondages internet vs téléphoniques

Les sondages véritablement probabilistes sont très difficiles à réaliser. Même les sondages téléphoniques, dont celui publié dans le National Post le 22 août 2012, ne sont pas probabilistes. Sur ce point, je suis d'accord avec Jean-Marc Léger. Comme il l'explique, de plus en plus de Canadiens ne sont plus dans le bottin téléphonique, et les taux de réponse aux sondages téléphoniques sont rendus très faibles. Bien qu'il avance des arguments très crédibles, il n'a pas démontré scientifiquement que les sondages internet sont plus fiables que les sondages téléphoniques.

Toutefois, en l'absence de sondages probabilistes, les sondages empiriques sont tout de même meilleurs que l'absence de sondage!

9. Conclusion

Cet article a fait la démonstration que les sondages empiriques réalisés par internet sont biaisés. Le fort taux de participation anticipé (89%) le démontre de façon très éloquente. Bien que ce biais puisse facilement s'expliquer de façon intuitive, cela ne garantit pas l'absence d'autres biais. En effet, les intentions de vote peuvent aussi être biaisées dans les sondages empiriques.

On soupçonne les sondages d'influencer le vote des électeurs. Si c'était le cas, cela signifierait que les 1929 répondants au sondage ont un pouvoir de vote disproportionné par rapport au reste de la population. Les votes ne seraient donc pas égaux. Ainsi, est-il sain pour une démocratie, de publier des sondages? Les sondages sont publiés sous prétexte qu'il s'agit d'information. Or, si on ne peut pas démontrer scientifiquement la fiabilité des sondages empiriques, peuvent-ils encore être considérés comme de l'information? Si la réponse est non, alors pourquoi les publier sachant qu'ils peuvent brimer le droit au vote égal?

10. Liens intéressants

[1] http://www.statcan.gc.ca/edu/power-pouvoir/ch13/nonprob/5214898-fra.htm.

À propos de l'auteur.

Éric Beaudry est sondeur d'un jour.