Aujourd'hui, je m'improvise sondeur d'un jour! Je
vais vous démontrer que les sondages internet sont
biaisés. Leur fiabilité est donc discutable!
Vous pouvez trouver l'analyse du sondage
Léger Marketing publié le 25 août 2012 dans
le Journal
de Montréal à http://www.legermarketing.com/admin/upload/publi_pdf/%C3%89lection_Quebec_2012_2408-2012.pdf.
Il s'agit d'un sondage empirique par
opposition à un sondage probabiliste.
Évidemment, les firmes de sondage préfèrent
utiliser le terme «non probabiliste» plutôt
que «empirique». Ça fait plus
sérieux! Après tout, les journaux et les autres
médias seraient moins intéressés à
acheter et à publier des sondages empiriques!
Le problème des sondages empiriques est
qu'ils sont potentiellement biaisés, car on doit
faire l'hypothèse que chaque individu a la même
probabilité d'être sélectionné.
En plus d'être biaisés, les
sondages empiriques ne permettent pas d'estimer
la marge d'erreur.
Pourtant, on laisse sous-entendre que ces sondages
sont tout de même fiables. Jean-Marc Léger a
publié deux textes pour défendre la
fiabilité des sondages internet :
Pour affirmer que ses sondages sont fiables, Jean-Marc
Léger s'appuie sur les résultats des
élections générales au Canada en 2011
(voir tableau ci-dessous).
(Source : http://www.ledevoir.com/politique/quebec/356455/la-precision-des-sondages-internet)
Calculer l'écart moyen (1.17%) n'est pas la bonne
façon de mesure la qualité du sondage. Pour s'en
convaincre, imaginez qu'on aurait listé 100 partis
politiques bidons qui auraient été près
du 0%. L'écart moyen aurait été
très près de zéro!
Pour vérifier si le sondage a fait de bonnes
prédictions, il faut plutôt regarder son erreur
maximale. Dans le cas présent, c'est une erreur de 4%.
À noter qu'un sondage avec 1929 répondants a une
marge d'erreur maximale de 2.2%, 19 fois sur 20. L'erreur du
sondage Web en 2011 a donc dépassé largement la
marge d'erreur typique.
À la page 4 du document d'analyse du
sondage Web, on peut retrouver le tableau suivant.
(Source : http://www.legermarketing.com/admin/upload/publi_pdf/%C3%89lection_Quebec_2012_2408-2012.pdf, Page 4)
Sur les 1929 répondants, 2% n'ont pas
l'intention de voter, 4% annuleront leur vote, 3% ne savent pas
encore pour qui voter, et 2% refusent de répondre
à la question. Faisons l'hypothèse que tout ces
répondants n'iront pas voter. Si on additionne le tout,
cela fait 2+4+3+2=11%.
Ainsi, ce sondage se trouve à
anticiper un taux de participation de 89%. Prêt de
90%, rien de moins!
Aux élections générales
Québec 2008, le taux était de 57%. Si le
même taux de participation était observé en
2012, cela donnerait une erreur de 32%. Pourtant, dans
l'analyse du sondage, on affirme que si le sondage était
probabiliste, la marge d’erreur [maximale] aurait
été de +/- 2,2%, 19 fois sur 20.
Faut-il conclure que les publicités
du Directeur
général des élections du Québec
auront été particulièrement efficaces?
Cela démontre plutôt que ce
sondage est très peu fiable pour anticiper le taux de
participation le 4 septembre 2012!
Évidemment, le biais sur le taux de
participation peut s'expliquer intuitivement. On peut supposer
que les gens qui ne votent pas ont aussi tendance à ne
pas répondre aux sondages. Il est donc normal que le taux
de participation soit imprécis.
Le problème des sondages internet est
qu'ils peuvent contenir d'autres biais. Il n'est pas exclu qu'ils
peuvent aussi se tromper sur les intentions de votes.
La figure ci-dessous présente un
réseau bayésien simple. Un réseau
bayésien est un graphe qui modélise des relations
de dépendance entres des variables aléatoires.
Chaque bulle (sommet) représente une variable
aléatoire. Chaque flèche (arête) montre une
relation de dépendance. Si on choisit un électeur
aléatoirement, on peut déterminer ses
caractéristiques (âge, sexe, région, langue
maternelle, etc.). Évidemment, le vote exprimé
dans l'urne le jour de l'élection dépend de
l'électeur lui-même.
Généralement, il y a une corrélation
entre le vote d'un électeur et ses
caractéristiques (âge, sexe, région,
langue maternelle, etc.).
Les sondages véritablement probabilistes
sont très difficiles à réaliser. Même
les sondages téléphoniques, dont celui
publié dans le National Post le 22 août
2012,
ne sont pas probabilistes. Sur ce point, je suis d'accord avec
Jean-Marc Léger. Comme
il l'explique, de plus en plus de Canadiens ne sont plus
dans le bottin téléphonique, et les taux de
réponse aux sondages téléphoniques sont
rendus très faibles. Bien qu'il avance des arguments
très crédibles, il n'a pas démontré
scientifiquement que les sondages internet sont plus fiables que
les sondages téléphoniques.
Toutefois, en l'absence de sondages probabilistes, les sondages empiriques sont tout de même meilleurs que l'absence de sondage!
Cet article a fait la démonstration que les
sondages empiriques réalisés par internet sont
biaisés. Le fort taux de participation anticipé
(89%) le démontre de façon très
éloquente. Bien que ce biais puisse facilement
s'expliquer de façon intuitive, cela ne garantit pas
l'absence d'autres biais. En effet, les intentions de vote
peuvent aussi être biaisées dans les sondages
empiriques.
On soupçonne les sondages d'influencer le
vote des électeurs. Si c'était le cas, cela
signifierait que les 1929 répondants au sondage ont un
pouvoir de vote disproportionné par rapport au reste de
la population. Les votes ne seraient donc pas égaux.
Ainsi, est-il sain pour une démocratie, de publier des
sondages? Les sondages sont publiés sous prétexte
qu'il s'agit d'information. Or, si on ne peut pas
démontrer scientifiquement la fiabilité des
sondages empiriques, peuvent-ils encore être
considérés comme de l'information? Si la
réponse est non, alors pourquoi les publier sachant
qu'ils peuvent brimer le droit au vote égal?
[1] http://www.statcan.gc.ca/edu/power-pouvoir/ch13/nonprob/5214898-fra.htm.
Éric
Beaudry est sondeur d'un jour.