製作時有兩件事不應該考慮:香腸和計量經濟學估計。我們發現自己處於極度悲傷和不科學的境地。 任何認真對待數據分析的人或也許更準確。幾乎沒有人認真對待任何人的數據分析。 」

這就是經濟學家 Ed Leamer 在 1983 年著名文章《讓計量經濟學中消除騙局》中對實證研究的嚴厲批評。當時,他的意思是研究人員知道他們不應該過度相信其他研究人員的估計,因為他們在整個研究過程中很容易受到任意選擇的影響。但自利默提出批評以來的幾十年裡,受過教育的公眾傾向於重視「學術」教育。認真經過同儕審查

隨著 John Ioannidis 醫生 2005 年發表的熱門文章“為什麼大多數發表的研究都是錯的?」。擔憂 成長快 在社群媒體發展的幫助下,它度過了 2010 年的「複製危機」。心理學排名第一,也是最難的,從2011年的文章“假陽性心理學但其他經濟學和社會科學並未被排除在外。

科學的主要前提是研究應該是可重複的。如果一位科學家創建了一個實驗來測量物理常數,例如光速,並且他們足夠好地記錄該實驗,那麼其他科學家應該可以進行相同的實驗並找到相同的結果。如果一個實驗室的結果無法在其他地方複製 冷聚變它們可能實際上並不存在。

除了物理等硬科學之外。我們沒想到會達到同樣的精度。也許一項試驗發現某種藥物可以減少 17% 的心臟病發作,而另一項試驗則發現可以減少 14%。但為了讓研究使我們受益,我們需要採取行動。至少它必須能夠重複。如果一種藥物在一次試驗後發現有效,但隨後的每一次試驗都發現無效。人們不應該服用這種藥。

社會科學研究需要幾十年的時間才能產生相當於推廣藥物的研究,但結果證明這些藥物無用或有害。當布萊恩·諾塞克 (Brian Nosek) 領導的團隊試圖複製 2015 年發表在領先心理學期刊上的 100 個實驗時, 少於一半 事實證明這是一個具有統計意義的發現。聯邦儲備銀行 討論文件 同年發表的經濟學論文也有同樣糟糕的結果。

如果在領先期刊上發表的同儕審查研究不可信,我們還能相信什麼?自 2015 年以來,一些最受歡迎的答案是“沒有任何東西「或是常識和以前的意識形態信念的混合體。但複製危機後實施的科學改革可能最終會開始以可重複和可靠的研究的形式結出果實。

美國陸軍是眾多依賴社會科學研究來指導決策的機構之一。當複製危機對這項研究產生懷疑時,他們決定採取行動。以資助互聯網和自動駕駛汽車等硬技術開發而聞名的國防高級研究計劃局,已資助布萊恩·諾塞克 (Brian Nosek) 和 開放科學中心 複製社會科學領域的大量研究。這個想法是為了測試這項研究的可靠性。並看看是否有任何類似的研究結果更可靠。

這項工作的結果最近發表在 特殊問題 期刊的 自然來自社會科學領域的數百名研究人員(我也是其中之一)試圖複製領先社會科學期刊上發表的文章中的數百項主張。總的來說,我們發現事情從糟糕的開始變得更好。例如,大多數文章不會透露預期產生結果的資訊或程式碼。但與 2009 年研究開始時相比,這些資訊更有可能被揭露。

圖1: 按出版年份列出的數據和代碼的可用性。

來源: 自然

從這個標準來看,經濟學和政治學看起來相當不錯。大約一半的文章分享資訊或程式碼。相比之下,該研究領域的文章不到十分之一。經濟學也是如此。 「再現性」非常好,大多數文章都達到了這個低標準。可重複性意味著其他研究人員是否按照已發表的文章所說的分析方式分析了相同的資料集。他們會得到完全相同的結果嗎?對於經濟學報告,他們給出了完全相同的結果,67%,這比所有其他研究領域的比率都要高。

圖 2:按字段劃分的再現性

來源: 自然

我稱之為低標準,因為它僅僅意味著最初的研究人員記錄了他們所做的足夠好的事情,以便其他人可以複製它,而不是說他們的發現是正確的。 (另一方面,如果他們沒有很好地記錄事情供其他人複製,(這並不一定意味著他們是錯的。)我們如何知道他們是否正確?

其他 文件自然 測試結果對分析方法的改進有多敏感。如果有多種合理的方法來分析資料原始研究人員誕生是否有可能(偶然或選擇)選擇產生統計顯著結果的方法?或者最合理的方法會得出或多或少相同的結論嗎?

本文包含的大多數文件可能被稱為「方向正確」。在穩健性測試嘗試中,74% 發現與原始方向相同的統計顯著效應,但只有 34% 發現效應大小與原始非常相似。

當嘗試在新資料集中重複一個聲明時(不僅僅是對現有資料使用新方法。)只有一半的結果與原始資料在相同方向上具有統計顯著性。而且發現的效果還不到原來大小的一半。

總體而言,這表明已發表的社會科學研究往往誇大了其影響的大小。並且經常聲稱可能不存在的效果。這遠非理想。但依靠研究仍然比偶然好得多。例如,穩健性測試僅在 2% 的情況下發現與原始論文相反方向的顯著效果。

所有這些對研究消費者意味著什麼?更信任所有文學總是一個好主意。 單一文件。為了那個經濟。 經濟展望雜誌 它以相對容易理解的方式很好地總結了研究領域。

這是一個緊急的新項目。 簡單的規則 靈感來自 自然 文件中,你可以做得比「將估計效果大小減半」更糟。如果發表的報告表明大學學位可以使工資增加 100%,那麼學位實際上有可能增加工資,但在 2005 年增加了 40-50% 以上。 John Ioannidis 表示,「大多數已發表的研究結果並不真實。」到 2026 年,我們似乎將改進為「大多數發表的研究結果都被誇大了」。

(2 則評論)

來源連結

LEAVE A REPLY

Please enter your comment!
Please enter your name here