Les scientifiques se préoccupent trop de recherche – réseau de blog américain scientifique

La nécessité de poursuivre les recherches sur fill en favori sous-est l’un de ces truismes évidentes en soi psychologie approche sociale. communautés médicales diverses qui demandent du financement du gouvernement, des subventions et dons pour la cause de guérir la maladie certainement d’accord avec elle. Le débat politique sur le changement climatique comporte des guerres de mots très chargé, mais les deux parties embrassent l’idée de plus de recherche. Les universités et les organismes de recherche à but non lucratif plaident avec véhémence pour plus de fonds de recherche. Voler en face de ce grand besoin est un tarissement perçu du financement de la recherche: l’Institut national de la santé et d’autres organismes de recherche gouvernementaux sont Flatlined en raison des batailles féroces fiscales et l’impasse budgétaire au Congrès.

Un regard sur les résultats de la recherche actuelle est instructive. En Août Brian Nosek ici à 2015 et ses collègues du Centre pour la science Open, qu’il a cofondé, partagé un examen de 100 différentes études publiées en 2008, tous dans le domaine de la psychologie articles de psychologie sociale. Tous sauf trois des études ont rapporté des résultats statistiquement significatifs recherche en psychologie emploi assistant Londres. Nosek et société mis à les reproduire, en consultation avec les auteurs et en utilisant les mêmes méthodes originales. Seulement 36 pour cent des études originales ont été confirmées, et celles qui ont été avaient des effets plus petits dans la réplication que dans l’étude originale. John Ioannidis, qui a beaucoup écrit sur le problème des découvertes scientifiques qui s’évaporent sur un nouvel examen, a attiré l’attention de la communauté scientifique à ce problème plus tôt avec son article de 2005, « Pourquoi la plupart des résultats de recherche publiés sont faux. »

Au cœur de ce problème de reproductibilité est les méthodes d’inférence statistique utilisées pour valider les résultats de recherche spécifiquement le concept de « signification statistique ». Un résultat statistiquement significatif est celui qui diffère sensiblement de ce que vous pourriez attendre de hasard psychologie de la personnalité sociale. Cela semble raisonnable, si un peu vague, mais quand la notion est plus concrète, il se transforme en une « boîte noire statistique » qui est au-delà de la portée ou de l’intérêt de la plupart des chercheurs. La plupart sont uniquement intéressés par leurs données et leurs résultats, et faire passer le test de signification statistique est simplement une étape de procédure nécessaire, comme l’obtention de votre passeport estampillé à la frontière.

Presque comme ça. Si vous êtes un voyageur se détourna à un point d’entrée et puis essayez d’entrer dans un autre, l’agence de l’immigration se souviendra de votre première tentative et vous serez probablement refusé à nouveau actuelle psychologie sociale événements. Pas avec les gardiens de la recherche. Si vos résultats préliminaires ne passent pas la barre de signification statistique, vous pouvez obtenir d’autres piqûres de la pomme. Supposons que vous êtes à la recherche à l’effet de la vitamine X sur la santé, et vous décidez d’utiliser l’un des grands ensembles de données de cohorte épidémiologiques (par exemple, la « étude Framingham » commencée en 1948 avec les habitants de Framingham, Mass.).

Vous trouverez peut-être, à votre déception, il n’y a pas de relation entre la vitamine X et de la santé dans les données. Mais vous pouvez revenir en arrière et il suffit de regarder les femmes; ou les hommes; ou les hommes de plus de 50 psychologie sociale phd. Qui est de savoir combien de sous-groupes que vous regardez avant de trouver une relation? La protection que l’inférence statistique offre contre être « dupé par hasard » disparaît lorsque vous chasse à plusieurs reprises pour des motifs intéressants dans les grands ensembles de données (à moins que vous appliquez correctement soi-disant procédures multiples tests qui soulèvent la barre de signification statistique).

Scénario 1. Une personne prétend être en mesure de lancer une pièce de monnaie et « sera » à la tête atterrir sur chaque coup la psychologie échantillon de papier de recherche. Vous demandez à la personne de jeter un quart 10 fois, et il arrive têtes toutes les 10 fois.

Scénario 2: L’annonceur à un jeu Yankees demande à tous les 20.000 fans présents pour lancer une pièce de 10 fois et signaler si elles ont toutes les têtes. Le ventilateur dans la section 301, rangée P, siège 12 annonce à un huissier qu’il a obtenu toutes les têtes.

Dans le premier scénario, vous avez fait un « test » avec des résultats remarquables, et vous êtes assez surpris par ces résultats à penser que la personne a des capacités hors du commun. Dans le second scénario, vous avez fait 20.000 tests dans d’autres mots, vous avez créé 20.000 opportunités pour quelque chose d’inhabituel se passer l’attitude en psychologie sociale. Il est pas du tout surprenant, donc que certains fan obtiendrait 10 têtes de suite (en fait, il est presque une certitude).

L’Association statistique américaine a organisé un symposium à la mi-Octobre sur l’inférence statistique. Là, John Ioannidis et Steve Goodman mis le défi qui fait face à la profession statistique, comme « Good Housekeeping sceau d’approbation » sur la recherche perd régulièrement la valeur. dit Ioannidis, « Nous sommes noyés dans une mer de signification statistique » … et … « valeurs de p [une méthode standard de calcul importance] sont devenus une nuisance ennuyeuse. » Le symposium fait suite à la déclaration ASA p-valeurs de l’année dernière, et les participants ont débattu des solutions techniques possibles à l’exemple de problème pour, le passage des valeurs de p à des intervalles de confiance autour de l’effet.

Mais la question est beaucoup plus fondamental la personnalité et de la psychologie sociale. Trop de chercheurs, sous la pression de carrière pour produire des résultats publiables, pourchassent trop de données à l’analyse trop à la recherche de résultats significatifs. Le nombre d’articles scientifiques indexés par PubMed en 2011 a dépassé 1,2 million un quadruplement depuis 1980. Est-ce n’importe où proportionnelle à la quantité de connaissances et de l’innovation percée en attente d’être découvert?

Bruce Alberts et al. fait allusion à ce problème dans leur article sur les défauts systémiques (pdf) dans la recherche médicale. Comme ils l’ont mis: « … les scientifiques biomédicales les plus performantes forment beaucoup plus scientifiques que sont nécessaires pour remplacer lui-même; dans l’ensemble, le pipeline de formation produit plus de scientifiques que de postes pertinents dans le milieu universitaire, le gouvernement et le secteur privé sont capables d’absorber « .

Et comme plus d’articles publiés se, plus s’escamotée. Le problème est particulièrement grave en Chine. La biologie tumorale journal rétracté 107 articles publiés à partir de la Chine plus tôt cette année après avoir trouvé leur processus d’examen par les pairs a été truquée comportement social en psychologie. Une enquête auprès des chercheurs biomédicaux chinois a publié cette année en sciences et en génie éthique est venu avec une estimation que 40 pour cent de la recherche en Chine est entachée d’une faute.

Steve Goodman, au symposium, avait tendance à être d’accord que le problème de la reproductibilité dans la recherche est motivée par le nombre de chercheurs qui veulent publier, et que le remplacement de la p-valeur avec d’autres critères achèterait une amélioration temporaire, mais d’autres critères de publication seraient probablement Gamed comme bien.

Examiner des propositions pour réduire le seuil de valeur p de 0,05 à 0,005. Serait-il aider? Il pourrait théoriquement faire empirer les choses: Relever la barre de signification statistique 10 fois va poser en effet un obstacle plus à la publication des résultats de recherche. Mais une bonne recherche qui a du son; est honnêtement et font rapport; et a un potentiel à répliquer sera complètement contrecarrés. la recherche Malsain ou malhonnête qui repose sur « p-piratage » sera simplement besoin d’une recherche plus large pour localiser les résultats magiques qui répondent aux critères de signification statistique.

Le problème de la reproductibilité est particulièrement aiguë dans la recherche qui implique l’exploration des données existantes à la recherche de quelque chose d’intéressant (c’est publiable) par opposition à une expérience dans laquelle une hypothèse est indiquée à l’avance, les données sont collectées pour le tester. Celui-ci, si réalisée avec intégrité, dispose d’un mécanisme intégré pour limiter des résultats erronés. Et au cœur est la question de la motivation est la recherche motivée par la curiosité et la nécessité de répondre à une question urgente? Ou est-ce motivée par des considérations de carrière du chercheur?

Galit Shmueli, auteur d’analyse de données qui a noté publié de nombreux ouvrages sur la distinction entre l’utilisation des statistiques pour expliquer par rapport à prédire, conteste la notion de rassasiement de recherche. Elle soutient le paysage technologique actuel, il faudra plus de bonnes recherches pertinentes dans la gestion, les sciences sociales et les sciences humaines.

Pourtant, il reste le cas, il n’y a pas de lien naturel entre l’offre de chercheurs (principalement grâce un financement du gouvernement et par la taille croissante du secteur de l’enseignement supérieur) et l’offre de bons, les résultats de recherche pertinents. Il est le nombre important et croissant de chercheurs qui luttent pour des résultats publiables qui mène à des conclusions qui vont trop loin et ne peuvent pas être reproduites. La profession statistique peut fournir une plus holistique et moins seuil « de gameable » pour publication, mais cela ne réduira pas la pression pour le système de jeu.