Accueil / « Statistiquement significatif » : les critères sont-ils suffisamment exigeants ?

Dossier • Science et média : une relation sous influence

« Statistiquement significatif » : les critères sont-ils suffisamment exigeants ?

Publié en ligne le 29 mai 2018 - Statistiques et probabilité -

Cet article est une traduction d’un texte publié par le Skeptical Inquirer (novembre/décembre 2017) sous le titre "Moving Science’s Statistical Goalposts". Avec l’aimable autorisation de l’auteur et de l’éditeur.

Traduction : Noémie Tosser et Justine Le Carrou.

En 1989, Ralph Rosnow et Robert Rosenthal, deux spécialistes très respectés des méthodes statistiques en psychologie, ont écrit la célèbre phrase suivante : « Nous voulons souligner qu’il semble évident que Dieu aime à peu près autant le 0,06 que le 0,05. » ([1] p. 1277).

Pour des chercheurs en psychologie – ainsi qu’en biologie et en sciences sociales –, cette phrase fait sourire car le 0,05 est le Graal de la signification statistique. Faire usage d’un langage religieux pour parler de méthodes scientifiques peut sembler surprenant, mais la métaphore est appropriée car, depuis que les scientifiques utilisent des méthodes statistiques, obtenir une probabilité de 0,05 ou moins (par exemple 0,04 ou 0,027 ou encore 0,004) signifie avoir une publication, une reconnaissance académique, et faire un pas de plus vers la sécurité financière de la titularisation. Mais obtenir 0,06 ou même 0,055 n’apporte rien du tout : ni publication, ni un pas vers une retraite confortable.

Rosnow et Rosenthal affirmaient que les scientifiques n’étaient obsédés que par cette limite arbitraire de p < 0,05. Mais aujourd’hui, leur plaidoyer peut sembler daté. Soixante-douze statisticiens, biologistes et scientifiques sociaux de renom ont signé une déclaration proposant que la norme passe de 0,05 à 0,005 [2]. On pourrait penser qu’il ne s’agit que d’un problème technique, mais cette proposition aurait de profondes conséquences sur le progrès de la science et a déjà suscité une vive controverse. Avant de les examiner, revenons un peu en arrière pour comprendre le cœur du problème.

La signification statistique : une logique inversée

L’idée vient du biologiste et statisticien britannique Ronald Fisher, que Richard Dawkins désigne comme « le plus grand biologiste depuis Darwin » [3]. Fisher a inventé de nombreuses techniques statistiques, comme par exemple l’analyse de la variance (ANOVA), dont l’apprentissage est aujourd’hui un passage obligé, et parfois pénible, de tous les étudiants en biologie, en psychologie et en bien d’autres disciplines.

Les scientifiques sont souvent tentés de prouver qu’une variable qui les intéresse provoque forcément quelque chose, mais Fisher admet qu’on ne peut pas affirmer une causalité. Par exemple, supposons qu’un chimiste ait identifié un composé X et pense que ce composé favorise la repousse de cheveux sur les personnes chauves. Pour s’en assurer, il prépare deux lotions, l’une avec X et l’autre avec une crème placebo, et réalise une expérience sur des volontaires chauves. À la fin de l’expérience, le chimiste constate que les cheveux du groupe de patients ayant utilisé X ont plus poussé que ceux du groupe placebo. Si son expérience a été bien conçue et bien réalisée, peut-il conclure en toute certitude que X fait repousser les cheveux ? Bien sûr que non. Ce résultat pourrait très bien être un coup de chance et, de plus, il n’y a pas d’autres tests positifs pour confirmer la règle.

En comprenant cela, Fisher propose de retourner la question, en créant une sorte d’épouvantail pouvant être invalidé par les statistiques. Si, dit-il, on considérait l’opposé de ce que l’on cherche à prouver, que le composé X n’a en réalité aucun effet ? C’est ce que Fisher appelle l’« hypothèse nulle » : l’hypothèse que rien ne se passe. On peut alors déterminer la probabilité que les résultats de notre expérience ont été obtenus par hasard. C’est là que ANOVA et d’autres méthodes statistiques font leur entrée. Fisher suggère que les tests statistiques pourraient être utilisés pour estimer le type de résultats attendu simplement du fait des variations aléatoires dans les données. Si les résultats obtenus au cours d’une expérience ont peu de chance d’arriver par hasard, le chercheur pourrait légitimement écarter l’hypothèse nulle, l’hypothèse qu’il n’y aucun effet. Et il peut alors sans problème affirmer que quelque chose de réel s’est produit. Par exemple, si l’analyse statistique de notre chimiste dit que la probabilité d’avoir une poussée de cheveux dans le groupe ayant utilisé le composé X est de 0,04 (ce qui veut dire que l’on pourrait avoir le même résultat par hasard dans 4 expériences similaires sur 100), alors il peut en conclure de manière raisonnable que X a réellement agi.

C’est ainsi qu’est né le test de signification de l’hypothèse nulle, qui demeurera longtemps la méthode communément admise. Fisher propose une probabilité (valeur de p) de 0,05. On est alors arrivé à une situation où des chercheurs dans des domaines très variés ne pouvaient plus espérer publier leurs articles sans avoir fait les tests statistiques appropriés et avoir trouvé que p est inférieur à 0,05 (une probabilité que l’hypothèse nulle soit vraie dans moins de 5 % des cas). La valeur 0,05 est devenu le seuil ultime de succès : avec p valant 0,055 les résultats sont catastrophiques, mais avec un p à 0.048 on peut sabler le champagne. Or la valeur de 0,05 n’a rien de magique, c’est juste une convention acceptée, une convention que Rosnow et Rosenthal, tout comme d’autres (par exemple [4]), ont critiquée en vain. Elle demeure un critère bien ancré permettant de séparer le bon grain de l’ivraie. Mais peut-être plus pour très longtemps.

Sur la signification statistique

Les résultats d’une étude sont-ils « statistiquement significatifs » ? Par convention, un seuil a été fixé à 5 % : c’est la probabilité que les résultats positifs soient en réalité obtenus par hasard. Trouver, dans les résultats d’une étude, une probabilité plus faible que cette convention est devenu une nécessité pour publier dans de grands journaux scientifiques.

La crise de la reproductibilité des résultats scientifiques [1] conduit à s’interroger sur cette pratique : un résultat est-il réellement « significatif » si d’autres chercheurs, à partir du même protocole, trop souvent ne parviennent pas à le reproduire ?

Une façon efficace d’atteindre un niveau de signification plus rigoureux est d’augmenter la taille de l’échantillon de l’étude. Mais cette dernière nécessiterait alors plus de moyens, ce qui pourrait limiter la recherche à des institutions bien financées. Sans compter que réaliser moins d’études avec de plus grands échantillons pourrait bousculer une culture et un système économique basés sur la quantité des publications.

Aussi certains scientifiques militent-ils plutôt pour l’adoption d’un seuil beaucoup plus contraignant (0,5 %) [2]. Les résultats publiés seraient ainsi plus fiables et plus susceptibles d’être reproductibles. Cependant, le nombre de « faux négatifs » (un effet réel, mais qui n’est pas montré par le test) devrait alors augmenter. C’est le sujet sur lequel se penche cet article de Stuart Vyse¹.

Mais l’utilisation même d’un critère aussi simple qu’un seuil de probabilité est-elle souhaitable ? Comme le montre une étude récente [3], un tel seuil entraîne très fréquemment des biais de sélection des résultats, bien entretenus par la pression à la publication. C’est pourquoi d’autres scientifiques remettent en cause la pertinence de ce type de tests statistiques, la seule « signification statistique » ne disant rien sur la pertinence d’une expérimentation ni sur l’ampleur du phénomène décrit [4]. Elle ne devrait en aucun cas permettre au chercheur de s’affranchir du nécessaire travail de discussion et d’interprétation de ses résultats. Au-delà de ce rappel de base, c’est d’une autre conception de l’organisation du travail scientifique qu’il faudrait débattre, et qui devrait passer, entre autres, par une valorisation des résultats négatifs, publiables au même titre que les résultats positifs (voir [5], ainsi que la rubrique de H. Maisonneuve dans ce numéro de SPS). Ne « rien trouver » (être au-dessus de 5% si l’on s’en tient à la définition conventionnelle) est aussi un résultat que l’on peut avoir de bonnes raisons de publier pour montrer que l’on n’est pas capable de produire, ou de reproduire, un effet. Une telle pratique permettrait notamment d’améliorer la qualité des méta-analyses en réduisant les biais de publication.

SPS

Références

1 | Baker M, “1,500 scientists lift the lid on reproducibility”, Nature, 2016, 533:452-454.
2 | Benjamin DJ et al., “Redefine statistical significance”, Nature Human Behaviour, 2017. 3 | Perneger TV, Combescure C, “The distribution of P-values in medical research articles suggested selective reporting associated with statistical significance”, Journal of Clinical Epidemiology, 2017, 87:70-77.
4 | « Une crise de reproductibilité de la science ? Non, c’est bien pire ! », The Conversation, 26 novembre 2017. Sur theconversation.com
5 | Moris K, « La publication des résultats de recherche négatifs », SPS, n° 329, janvier 2017.

Le renforcement des preuves scientifiques

Les statistiques font partie de ces domaines qui, au fil des années, font l’objet de nombreuses améliorations. La dernière controverse sur la valeur de p provient de ce qu’on appelle « la crise de la reproductibilité », qui est la découverte que de nombreuses expériences classiques, principalement en psychologie sociale et cognitive, n’arrivent pas à être reproduites. La perte de confiance dans les résultats de la recherche qui en a découlé a suscité un certain nombre de réformes, avec notamment le mouvement science ouverte (open science) [5]. L’approche du mouvement open science fait de la recherche un projet plus répandu et plus collaboratif, et rend beaucoup plus difficile la pratique du « p-hacking », c’est-à-dire le bidouillage de vos données jusqu’à ce que quelque chose d’important ressorte [6].

Ainsi donc, en juillet 2017, 72 scientifiques ont proposé de rendre le seuil de signification statistique plus exigeant en le portant de 5 pour 100 à 5 pour 1000 (p < 0,005) [7]. Selon eux, cela aiderait grandement à résoudre l’un des problèmes à l’origine de la crise de la reproductibilité : l’erreur de type I (en diminuant le nombre de « faux positifs », voir encadré).

Les erreurs de type I et II : « faux positifs » et « faux négatifs »

Lorsque nous disons que quelque chose est statistiquement significatif, nous disons simplement qu’il est peu probable que l’effet observé soit dû au hasard. Mais cela n’est pas impossible. Par définition, le choix du niveau de signification 0,05 signifie que nous sommes prêts à vivre avec une probabilité de 5 % qu’un effet affirmé soit en réalité dû au hasard. Cela constitue les erreurs de type I, ou les « risques de première espèce ». C’est une sorte de « faux positif ». Par exemple, si le composé X est sans effet, notre choix du critère 0,05 signifie que dans cinq essais sur cent, nous conclurons qu’il se passe quelque chose alors que rien n’est arrivé. Et comme nous ne faisons qu’un seul test, ce qui est le plus souvent le cas, comment pouvons-nous savoir si le nôtre est l’un des cinq cas aléatoires qui fait que le composé X semble fonctionner ? Nous ne pouvons pas le savoir en nous basant sur un seul test. À l’inverse, les erreurs de type II (ou « risques de seconde espèce ») sont causées lorsque l’effet étudié est réel, sans que le test ne le montre (sortes de « faux négatifs »). Le composé X peut vraiment faire pousser les cheveux mais, par hasard, le test est ressorti non significatif : p > 0,05.

Déplacer le critère statistique à 0,005 réduirait considérablement les risques d’erreur de type I, et ferait que les résultats qui parviendraient à être publiés seraient plus fiables et plus susceptibles d’être reproductibles. C’est un objectif louable et il n’y a pas de solution plus facile que de simplement demander un test plus exigeant. Cependant, un tel changement ne serait pas sans conséquence. En réduisant les chances d’une erreur de type I, on augmente les chances d’un autre type d’erreur, qu’on appellera logiquement erreur de type II. Les erreurs de type II sont causées lorsque l’effet étudié est réel, sans que cela ne soit montré par le test (« faux négatifs », voir encadré). Le changement proposé (faire passer la valeur de p à 0,005) par le groupe des 72 rendrait les faux négatifs plus courants et, étant donné le temps et les coûts souvent énormes de la recherche moderne, cela signifierait que des résultats importants qui contribueraient à notre base de connaissances risqueraient de mourir dans l’œuf. En fin de compte, les progrès de la science seraient ralentis.

Anticipant peut-être cette objection, les 72 auteurs proposent que les résultats se situant entre le 0,05 traditionnel et le nouveau 0,005 pourraient être publiés comme étant « suggestifs » plutôt que statistiquement significatifs. De plus, le critère < 0,005 ne s’appliquerait qu’aux essais portant sur des phénomènes nouveaux alors que les reproductions d’études publiées antérieurement pourraient être maintenues à 0,05. Il est tout de même clair que ce changement aurait un impact considérable. Comme l’a suggéré un membre d’un de mes groupes de discussion sur Internet, ce changement pourrait rendre de nombreuses revues de psychologie beaucoup moins volumineuses qu’elles ne le sont actuellement. Je n’ai pas vérifié, mais je suis quasiment sûr que plusieurs de mes propres études publiées devraient être rétrogradées dans la catégorie « suggestives ».

La réponse

La proposition des 72 chercheurs devrait paraître dans un prochain numéro de la revue Nature Human Behavior, mais l’exemplaire prépublié en ligne [7] a déjà largement attiré l’attention de la communauté scientifique et a suscité beaucoup de commentaires. De nombreux chercheurs ont accueilli favorablement la suggestion du 0,005 (déjà proposée par ailleurs [7]), mais il y a eu aussi quelques oppositions. Le psychologue Daniel Lakens organise un groupe pour la contester. Selon un article du site Vox, l’une des principales objections de Lakens est qu’une telle technique ralentirait le progrès de la science. Elle rendrait plus difficile la publication scientifique et découragerait les étudiants et d’autres chercheurs aux ressources limitées.

Généralement, la façon la plus efficace d’augmenter la puissance d’un test statistique et la probabilité d’atteindre un niveau de signification rigoureux, comme < 0,005, est d’augmenter le nombre de participants inclus dans l’étude. Internet offre de nouvelles possibilités pour recueillir de grandes quantités de données d’enquête, mais ce n’est pas toujours possible (considérons, par exemple, des psychologues du développement qui étudient le comportement des nourrissons dans des laboratoires). Aussi important que soit ce travail, il pourrait finir par se limiter à quelques centres bien financés. Pour sa part, le psychologue Timothy Bates avance l’argument plus général selon lequel l’analyse coûts-bénéfices du passage à 0,005 est négative [9]. Selon lui, la recherche deviendra beaucoup plus coûteuse sans en tirer des bénéfices à la hauteur.

Enfin, il y a le risque de trop se focaliser sur une partie seulement du sujet. John Ioannidis est statisticien et chercheur en santé de l’université de Stanford. Son article publié en 2005 [10] est une référence sur la question de la reproductibilité. Il fait également partie des soixante-douze signataires de la proposition du 0,005. Cependant, Ioannidis admet que la signification statistique n’est pas la seule façon de juger une étude : « La signification statistique [seule] ne dit pas grand-chose sur le sens, l’importance, la valeur clinique, l’utilité [de la recherche]. » (cité dans [8]). Même si le composé X a produit une augmentation significative de la pousse des cheveux (p < 0,005), la croissance même des cheveux pourrait ne pas être assez visible pour que le traitement en vaille vraiment la peine. Ainsi, les chercheurs pourraient se concentrer sur certains types de résultats susceptibles de les conduire à atteindre les nouveaux critères statistiques plus stricts, mais en passant à côté de sujets plus importants.

Cela arrivera-t-il ?

Quelle est donc la probabilité que les règles du jeu évoluent et que les journaux commencent à exiger une valeur de p < 0,005 ? Je pense que c’est peu probable. Pas cinq chances sur mille, mais moins d’une sur deux. Il y a de bonnes raisons d’adopter cette évolution, surtout à un moment où la confiance dans la recherche en sciences sociales est au plus bas. Cependant, pour certaines raisons, je ne pense pas que cela arrivera.

Premièrement, comme cette controverse est relativement récente, les opposants sont toujours en train de développer leurs objections. Au fur et à mesure que la discussion avancera, les préoccupations au sujet des erreurs de type II se feront plus fortes : des phénomènes réels seront ratés parce que non conformes au critère p < 0,005. De même, le côté dissuasif pour les jeunes chercheurs, que personne ne souhaite, occupera une place croissante.

Mais je soupçonne qu’une des raisons les plus importantes pour ces résistances viendra de considérations économiques plutôt que de questions techniques et professionnelles perçues comme obscures. Selon The Guardian [11], les publications universitaires, avec des tailles comparables, sont beaucoup plus rentables que les industries du film ou de la musique. Une grande partie de ce succès provient d’un modèle d’affaire unique dans lequel le produit qui est vendu (des bourses universitaires) est principalement obtenu gratuitement. La recherche qui coûte souvent des millions de dollars en subventions et en salaires est gracieusement confiée à des éditeurs de publications scientifiques comme Elsevier ou Springer. Même l’évaluation par les pairs des manuscrits soumis sont effectués par des chercheurs à titre gracieux.

La publication académique est une sorte de boucle folle et incestueuse de rétroactions. Les chercheurs doivent publier leurs travaux dans des revues de haute qualité s’ils veulent progresser dans leur carrière, et les universitaires ainsi que les bibliothèques universitaires doivent payer des frais d’abonnement exorbitants pour avoir accès à ces mêmes revues. Le système actuel est menacé par Sci-Hub, qui archive en les piratant les publications scientifiques, et par un nombre croissant d’universitaires qui mettent en ligne des versions prépubliées de leurs travaux [12]. À terme, toutes les publications scientifiques pourraient être entièrement gratuites et ouvertes, mais en attendant ce jour l’industrie de l’édition continuera d’être avide de publications. Par conséquent, la perspective d’un contenu beaucoup moins étoffé et de revues moins épaisses ne sera pas la bienvenue, et je pense qu’en fin de compte, cette attitude sera transmise aux rédacteurs qui devront choisir d’adopter ou non la nouvelle norme. Les dieux de l’édition préfèrent largement 0,05 à 0,005.

Références

1 | Rosnow RL, Rosenthal R, “Statistical procedures and the justification of knowledge in psychological science”, American Psychologist, 1989, 44:1276.
2 | Vyse S, “Has Science a Problem ?”, 18 juin 2015, sur skepticalinquirer.org
3 | “Who is the greatest biologist of all time ?”, 2 mars 2011, sur edge.org
4 | Cohen J, “Things I have learned (so far)”, American Psychologist, 1990, 45:1304.
5 | Vyse S, “The Parable of the Power Pose and How to Reverse It”, 15 décembre 2016, sur skepticalinquirer.org
6 | Vyse S, “P-hacker confessions : Daryl Bem and Me”, Skeptical Inquirer, 2017, 41:25-27.
7 | Benjamin DJ et al., “Redefine statistical significance”, Nature Human Behaviour, 2017.
8 | Resnick B, “What a nerdy debate about p-values shows about science – and how to fix it”, 31 juillet 2017, sur vox.com
9 | Bates T, “Changing the default p-value threshold for statistical significance ought not be done, and is the least of our problems”, 23 juillet 2017, sur medium.com
10 | Ioannidis JPA, “Why Most Published Research Findings Are False”, PLoS Med, 2005, 2:e124.
11 | Buranyi S, “Is the staggeringly profitable business of scientific publishing bad for science ?”, The Guardian, 27 juin 2017.
12 | Rathi A, “Soon, nobody will read academic journals illegally – the study worth reading will be free”, Quartz, 9 août 2017, sur qz.com

Le Skeptical Inquirer

Le Skeptical Inquirer est édité par le Committee for Skeptical Inquiry dont le but est de promouvoir la recherche scientifique, l’investigation critique et l’utilisation de la raison dans l’examen des controverses et des allégations extraordinaires. Avec six numéros par an, le Skeptical Inquirer se présente comme une sorte d’hybride, en partie journal scientifique, en partie magazine semi-populaire, contribuant à dépasser les frontières disciplinaires et à rendre la science accessible au grand public. L’Afis et la revue Science et pseudo-sciences entretiennent depuis plusieurs dizaines d’années des relations avec le CSI et le Skeptical Inquirer passant, entre autres, par la traduction d’articles et des échanges d’informations.

¹ Cet article est une traduction d’un texte publié par le Skeptical Inquirer (novembre-décembre 2017) sous le titre “Moving Science’s Statistical Goalposts”. Avec l’aimable autorisation de l’auteur et de l’éditeur. Traduction : Noémie Tosser et Justine Le Carrou, université de Bretagne Occidentale, Master Rédacteur-Traducteur.

Thème : Statistiques et probabilité

Mots-clés : Mathématiques