流行病學研究設計前匹配了混雜因素,是否要在建立模型時引入已匹配的混雜因素? | 知乎問答精選

 

A-A+

流行病學研究設計前匹配了混雜因素,是否要在建立模型時引入已匹配的混雜因素?

2018年07月09日 知乎問答精選 暫無評論 閱讀 7 ℃ 次

【小仙兒的回答(9票)】:

隨便扯兩句,拋磚引玉。有些詞不大確定中文教材怎麼翻譯的,所以中英混雜,不是在裝逼。有說錯的地方歡迎指正。懶得去翻課件了。。。

正確地回答肯定是it depends。我覺得這至少應該取決於1)你是如何匹配年齡的;2)你用的什麼統計模型。因為你說了,match的是confounder,我就默認只討論這一種情況。關於confounder的定義,默認你在說的是 變量A同時影響exposure和outcome,或者是某個會開啟backdoor path的變量B。

Case-control:

match的過程是case vs non-case。

如果你是按照年齡exact match,然後用了conditional logistic考慮了match,你依舊可以在model裡面研究interaction。如果你用了普通的logistic,每個年齡組應該都要在你的model的covariate list裡面。如果你是range match,比如10-20, 20-30什麼的,然後用了conditional logsitic,我覺得還是可以把年齡當作連續型變量放進去的。

Cohort:

match的過程是exposed vs non-exposed。

我好像還沒怎麼見過exact match age 的cohort,感覺為了樣本量也會是range match。我猜還是要根據match factor分組。或者是在不分組,但match set放一個dummy variable。兩種情況下都能test interaction。你當然也可以用其他的分析方法,比如conditional poisson。另外比如cox model,也可以根據mtach set 來 stratify。最後,我覺得隊列研究match的是不是更應該match person time。

和case control的主要區別就在於即使這個變量和exposure和outcome都相關,放在model一般會提高precision。而在case control裡則會bias towards null。

總之就是只要是match confounder,case control裡model的時候必須要考慮進去match factor,要麼在model裡面分,要麼根據match set 來stratify; cohort的話,放進去會提高precision,也沒什麼問題。

【大象的回答(6票)】:

剛做完這章的助教,和幾個同學也討論了一下這個問題。

病例對照研究中的匹配(matching)不是為了控制混雜,也無法控制混雜。病例對照研究中的匹配是為了控制異方差,提高研究的效率(efficiency)。

病例對照的匹配設計是一種典型的折衷(tradeoff),用偏倚(bias)來換取更小的方差(variance),或者說用犧牲真實性(validity)換取效率(efficacy),用犧牲準確度(accuracy)換取精密度(precision)。

其實流行病學中很多地方都是在討論這種折衷,例如隨機對照試驗中的ITT得到的一致估計(有些非臨床用途的隨機對照試驗使用2SLS估計可以得到無偏的估計)但方差大,而ATT由於破壞隨機化得到的是有偏估計但方差小。只不過病例對照研究裡選擇了效率而臨床試驗選擇了真實性,這是不同研究設計的取捨。

道理 @Wayne Li 已經說得很清楚了,令我獲益匪淺。下面我打算用OLS來說明一下匹配為什麼在病例對照中無法控制混雜偏倚,還會帶來偏倚。

這裡注意的是,病歷對照研究中往往用的是Logistic回歸,使用極大似然估計(MLE)或廣義最小二乘法(GLS),並非OLS估計參數,但這些估計方法在參數的點估計是都是一致的。選擇OLS為了便於計算和展示。

首先假設研究結局

,研究因素

,被匹配的變量

。這裡的Y可以看做是0或1,也可以看做是Y的函數變換,如

。COV是協方差,

.

用矩陣表示的話,就是

1. 隊列設計裡的匹配

真實世界的方程:

E1a:

,其中假設C1a:

,即假設除了Z之外,沒有其他混雜因素。

匹配後不考慮匹配因素的方程:

E1b:

隊列是針對研究因素進行匹配,進一步有:

C1b:

此時對方程E1等號兩邊同時對X求協方差,

由C1a,C1b可以發現,等號右邊2兩項都是0.

,這和不考慮E1b得到的結果是一樣的,

因此隊列研究裡面的匹配的確是為了控制混雜,在如果沒有交互作用和其他混雜因素,不考慮匹配因素得到的依然是無偏的估計。

2. 病歷對照研究裡面的匹配。

2.1 若匹配的是混雜因素

真實世界的方程:

E2.1a:

,其中假設C2.1a

,解釋同上。

匹配後不考慮匹配因素的方程:

E2.1b:

病例對照研究的匹配是針對結局的匹配,進一步有:

C2.1b:

, 注意和上面C1b的不同

此時對E2.1a等號兩邊分別同時對X和Z求協方差,得到方程組:

E2.1c:

E2.1d:

根據假設C2.1a和C2.1b,整理方程組得真實世界的β值:

而E2.1b得到不考慮匹配因素的β值:

,注意兩式前半部分是一樣的。

可見,如果不考慮匹配因素Z,則得到的是有偏的估計。

如果

大於0, 則OR值大於1,則

,

如果

小於0,則OR值小於1,則

結論是,在不考慮交互作用時,匹配混雜因素,總會使估計的參數趨於無效假設。即β趨近於0,OR趨近於1. 當在模型中考慮了Z之後,才可以控制這類低估。

而且匹配非混雜因素造成的低估是無法通過引入Z消除的,這些都能證明但這裡就不討論了。

【盧璐的回答(0票)】:

最近有點鑽牛角尖,與很多人討論後也沒有得到滿意的答案

標籤:-公共衛生 -統計 -流行病學 -醫學統計 -醫學統計學


相關資源:





給我留言