這是經濟學家 Ed Leamer 在 1983 年廣受好評的文章「讓我們消除經濟學中的騙局」中對實證研究提出的嚴厲批評。隨著時間的推移,他意識到研究人員不太相信其他研究人員的評估,因為他們覺得研究過程中做出了任意選擇。但自從利默提出批評以來的幾十年裡,有文化的公眾一直認真關注同儕審查的研究。
隨著醫生 John Ioannidis 於 2005 年發表熱門文章《為什麼大多數發表的研究都發現了謊言》,這種情況開始改變。在 2010 年代的「複製危機」期間,隨著社群媒體的發展,人們的擔憂迅速加劇。心理學首先受到的打擊也是最嚴重的,始於 2011 年的文章「假陽性心理學」。但經濟學和其他社會科學也未能倖免。
科學的一個核心前提是研究是可複製的。如果一位科學家進行了一項實驗來測量光速等物理常數,並且他們的實驗表現得足夠好,那麼其他科學家就可以進行相同的實驗並找到相同的結果。如果一個實驗室的結果無法在其他地方複製,那麼就像冷聚變一樣,它們可能不是真實的。
除了物理學等硬科學之外,我們不需要得到相同的精確度。也許該試驗發現一種藥物導致了 17% 的心臟病發作,而另一項試驗則發現了 14% 的心臟病發作。但為了讓研究能夠有效地指導我們的行動,它需要在某種程度上具有可重複性。如果一項試驗發現某種藥物有效,但隨後的每一次試驗都沒有發現任何結果,那麼人們可能不應該服用該藥物。
數十年的社會科學研究所產生的結果相當於大肆宣傳一種藥物的研究結果證明是無用或有害的。 2015 年,布萊恩·諾塞克 (Brian Nosek) 領導的團隊試圖複製頂級心理學期刊上發表的數百個實驗,結果只有不到一半的實驗顯示出具有統計意義的結果。同年發布的一篇聯邦辯論論文發現,發布財務報表的結果同樣不佳。
如果發表在期刊上的同儕審查研究不可信,我們還指望什麼呢?自2015年以來,一些流行的答案是“沒什麼”,或者是常識和預先知情的意見的混合體。然而,在複製危機中進行的科學改革最終可能會以可複製的、真實的研究的形式取得成果。
美國軍方是眾多依賴社會研究來指導決策的機構之一。當複製危機導致人們對這項研究產生懷疑時,他們決定採取行動。以資助網路和自動駕駛汽車等技術突破而聞名的國防高級研究計劃局正在資助布萊恩·諾塞克和開放科學中心在社會科學領域進行大規模複製研究。我們的想法是探索具體的和具體的研究,並看看這些研究類型是否有任何共同點,從而變得更準確。
這項工作的結果剛剛發表在該雜誌的特刊上 自然。來自社會科學領域的數百名研究人員(我就是其中之一)試圖複製社會科學期刊上發表的論文中的數百個主張。總的來說,我們發現從一個糟糕的開始有所改善。例如,大多數論文並不共享據稱產生其結果的數據或程式碼,但它們的可能性比 2009 年(研究時期的開始)要大得多。
圖1: 每年發布的數據和程式碼可用性
來源: 自然
依照這個衡量標準,經濟學和政治學的表現相對較好,近一半的文章共享數據或程式碼,而教育領域的文章只有不到十分之一。經濟學也具有相對較好的“再現性”,有幾篇文章突破了這個低標準。再現性是指如果其他研究人員分析相同的分析資料集,所發表的文章表明其以與文章中所述的分析相同的方式使用,他們是否獲得相同的結果。事實上,金融論文有 67% 的時間得出相同的結果,比其他研究領域的結果還要多。
圖 2:按字段劃分的再現性
來源: 自然
我稱之為低標準,因為它僅僅意味著原始研究人員所做的事情足以讓其他人轉錄它,而不是他們發現的內容是正確的(相反,如果文件不夠好以至於其他人轉錄,他們不一定會說它是錯誤的)。我們如何知道它是否正確?
其他論文來自 自然 測試效果如何對分析方法的調整敏感。如果有幾種合理的資料檢查方法,那麼第一批研究人員(偶然或精挑細選)是否碰巧選擇了給出統計顯著結果的方法?最合理的方法是否得出或多或少相同的結論?
在這裡,大多數卡片都可以稱為“簡單”。為了證明其強度,74% 的人發現與原始方向相同的統計顯著結果,但只有 34% 的人發現效果大小接近原始。
當他嘗試在新資料集上複製新發現時(不僅僅是對現有資料使用新方法),他發現只有一半的結果在與原始結果相同的方向上具有統計顯著性,並且發現的效果還不到原始結果的一半。
除此之外,他認為已發表的社會研究通常誇大了影響的大小,並且經常斷言可能不存在的影響。這遠非理想,但根據研究,這比偶然要好得多。例如,穩健性測試僅在 2% 的情況下發現與原始論文相反的顯著結果。
消費者研究到底是怎麼回事?不僅僅依靠單張卡總是一個好主意。對於經濟學來說,《經濟展望雜誌》在以相對容易理解的方式涵蓋研究領域方面做得很好。
作為靈感的新快速經驗法則 自然 論文中,你可能會做比「將估計效果大小減半」更糟糕的事情。如果一篇發表的論文說大學學位可以提高工資 100%,那麼該學位確實可以提高工資,但幅度可能會達到 40-50%。 2005年,約翰·約安尼迪斯(John Ioannidis)表示「大多數可以做的研究都是錯誤的」。到 2026 年,我們預計已達到「發表的最高研究成果」。
(3 則評論)
來源連結










