科学者が統計にだまされるのを止める方法

ドロシービショップによるエキサイティングな記事が 自然 584:9(2020); 土井:10.1038 / d41586-020-02275-8

シミュレートされたデータを収集すると、認知バイアスが私たちを迷わせる一般的な方法を明らかにすることができます。


堅牢で信頼できる研究を促進するために、過去XNUMX年間に多くの努力がなされてきました。 センセーショナルなブレークスルーよりもオープンサイエンスを優先するために、たとえば資金提供や出版の基準を変更することによって、インセンティブを変更することに焦点を当てている人もいます。 しかし、個人にも注意を払う必要があります。 過度に人間の認知バイアスは、そこにない結果を見ることにつながる可能性があります。 誤った推論は、意図が良い場合でも、ずさんな科学につながります。

著者についての一言:  

ドロシービショップ教授


発達神経心理学教授、実験心理学科; セントジョンズカレッジのフェロー


ビショップ教授は子供の言語障害を研究しています。 場合によっては、言語障害には、難聴やダウン症などの明らかな原因があります。 他の場合では、子供たちは明白な理由なしに話すことを学ぶことまたは言語を理解することを特に困難にします。 ビショップ教授は、人口の約3%を占めるが、研究者に見過ごされがちな「特定の言語障害」(SLI)の子供たちを研究してきました。 彼女は双生児研究を使用して、これらの障害の遺伝的要素を研究し、分子遺伝学者と協力して、どの遺伝子が関与しているかを調べました。 ソース画像:ウィキペディアa


科学者が統計にだまされるのを止める方法

堅牢で信頼できる研究を促進するために、過去XNUMX年間に多くの努力がなされてきました。 センセーショナルなブレークスルーよりもオープンサイエンスを優先するために、たとえば資金提供や出版の基準を変更することによって、インセンティブを変更することに焦点を当てている人もいます。 しかし、個人にも注意を払う必要があります。 過度に人間の認知バイアスは、そこにない結果を見ることにつながる可能性があります。 誤った推論は、意図が良い場合でも、ずさんな科学につながります。

研究者はこれらの落とし穴にもっと気づく必要があります。 実験室の科学者が安全訓練なしに有害物質を扱うことを許可されていないのと同様に、研究者は、それが何を意味するのかを理解していることを実証するまで、P値または同様の統計的確率測度に近づくことを許可されるべきではありません。

私たちは皆、私たちの見解と矛盾する証拠を見落としがちです。 新しいデータに直面したとき、私たちの既存のアイデアは、存在しない構造を見ることにつながる可能性があります。 これは、私たちが情報を検索し、私たちがすでに考えていることに沿った情報を記憶する確証バイアスの一形態です。 それは適応可能である可能性があります。人々は重要な情報を取り除き、危険から抜け出すために迅速に行動できる必要があります。 しかし、このフィルタリングは科学的なエラーにつながる可能性があります。


1913年に物理学者のロバートミリカンが電子の電荷を測定したのはその一例です。 彼の仕事には彼の有名な油滴実験からのすべてのデータポイントが含まれていると主張しましたが、彼のノートブックは、最終値をわずかに変更しただけで、より大きな統計誤差を与えたであろう他の報告されていないデータポイントを明らかにしました。 ミリカンが彼の読者を誤解させることを意図したかどうかについての議論がありました。 しかし、正直な人々が不便な事実の記憶を抑制することは珍しいことではありません(RC JenningsSci。Eng。Ethik10、639-653; 2004)。

別の種類の制限は、確率と統計の誤解を助長します。 私たちは、人々が小さなサンプルに関連する不確実性を把握するのが難しいことを長い間知っていました(A.TverskyおよびD.Kahneman Psychol。Bull。76、105-110; 1971)。 現在の例として、人口の5%がウイルスに感染していると仮定しましょう。 それぞれ100人をテストする25の病院、100人をテストする50の病院、100人をテストする100の病院があります。 何パーセントの病院が症例を発見せず、ウイルスがなくなったと誤って結論付けますか? 答えは次のとおりです。28人をテストする病院の25%、8人をテストする病院の50%、1人をテストする病院の100%。 病院で検出された平均症例数は、検査された症例数に関係なく同じですが、サンプルが少ないと範囲ははるかに大きくなります。

この非線形スケーリングは、直感的に把握するのが困難です。 これは、小さなサンプルのノイズがどれほど大きいかを過小評価することにつながり、したがって、効果を検出するための統計的検出力が不足している研究を実施することになります。

研究者たちはまた、P値で表される結果の重要性が文脈に決定的に依存していることを認識していません。 調べる変数が多いほど、誤った「有意な」値が見つかる可能性が高くなります。 たとえば、障害との関連について14の代謝物をテストする場合、0,05未満の少なくとも1つのP値(一般的に使用される統計的有意性のしきい値)が見つかる確率は20分の1ではなく、2に近くなります。 XNUMXに。

これについての理解をどのように伝えることができますか? XNUMXつ明らかなことは、統計に関する従来のトレーニングは、ユーザーに不適切な信頼を与える可能性があるため、不十分であるか、逆効果でさえあるということです。 私は別のアプローチを試しています。学生がさまざまな統計分析を行うことができるシミュレーションデータを生成することです。 これを使用して、XNUMXつの重要な概念を伝えます。

まず、学生にnullレコード(乱数など)が提示されると、統計的に「有意」に見える誤った結果を見つけるのがいかに簡単であるかがすぐにわかります。 研究者は、「AはBに関連付けられていますか?」と尋ねられたときにP値を解釈することを学ぶ必要があります。 「P <0,05の変数A、B、C、D、およびEに相関関係はありますか?特定の代謝物が疾患に関連しているかどうかの問題は、次の範囲を探すことと同じではありません。代謝物がそれに関連しているかどうかを確認します。後者には、はるかに厳密なテストが必要です。

再現不可能なXNUMX人の騎手を抑える

シミュレートされたデータは、サンプルが30つの「母集団」から異なる方法で取得された場合の情報も提供します。 学生は、サンプルサイズが小さいと、実験は中程度の違いでさえ明らかにするのに役に立たない可能性があることをすぐに学びます。 XNUMX分間のデータシミュレーションは、研究者がその影響を理解していれば、驚かされる可能性があります。


研究者は、肯定的な偏見に惑わされないように、生涯の習慣を身につける必要があります。 私たちの期待と矛盾する観察には特別な注意が必要です。 チャールズ・ダーウィンは1876年に、「私の一般的な結論と矛盾する公表された事実、観察、または考えに出くわしたときはいつでも、すぐにそれについての覚書を書いてください。事実と考えは、好ましいよりも記憶から逃れる可能性がはるかに高かった」。 私はそれを自分で見ました。 文献レビューを書いていると、特に欠陥はないのに、本能に反する論文について言及するのを完全に忘れてしまったことに恐怖を感じました。 私は今それらをリストしようとしています。

私たちは皆、自分の仕事の欠陥を見つけるのが難しいと感じています-これは人間の認識の正常な部分です。 しかし、これらの死角を理解すれば、それらを回避することができます。

印刷