第二節 病例對照研究
一、概 念
病例對照研究(case control study)是觀察性研究的一種,常用于疾病發生原因與危險因素的探討,是分析流行病學中最重要也是最基本的研究方法之一,是檢驗病因假設的重要工具。由于腫瘤潛伏期長,特別是一些罕見腫瘤如陰道腺癌,進行隊列研究成本較高,因此在腫瘤流行病學研究中,病例對照研究應用十分廣泛。
基本原理是以目前確診患有目標疾病的患者作為病例組,在病例的源人群中隨機選取未患有目標疾病的人群作為對照組,收集病例組和對照組過去的暴露史,分析比較兩組之間各種因素暴露的頻率,經過統計學檢驗,如果兩組之間暴露因素的頻率存在的差異具有統計學意義,則該因素與疾病存在統計學上的關聯,在平衡各種潛在的混雜因素和偏倚之后如果關聯依舊存在,那么通過借助病因推斷技術,可以推出某個因素是目標疾病的危險因素,從而達到對病因假設的檢驗和推導。研究示意圖如圖12-2所示。
病例對照研究基本特點為:時序上由后向前;按研究對象發病與否分為病例組與對照組;暴露是從現在對過去的回顧;從“果”到“因”。
二、類 型
(一)不匹配
這種研究設計比較多見,主要是在研究設計所確定的人群中選擇病例和對照,一般而言對照人數要大于病例人數。
圖12-2 病例對照模式圖
(二)匹配
匹配(matching)又稱為配對,指對照在某些方面或者某些特征上與病例組保持一致或者相當,主要目的就是在進行病例組和對照組比較時排除匹配因素的干擾。其具體可以分為頻數匹配和個體匹配。
1.頻數匹配(frequency matching)
此種匹配指的是匹配的因素在對照組和病例組中所占的比例一致,先明確匹配因素每一層中的病例數,然后從選定的對照人群中隨機抽取一定的對照,與病例進行匹配,匹配時不要求對照組與病例組人數絕對數相等,重要的是要求比較組間的構成比例相同,如病例組和對照組的性別比例構成是一致的。
2.個體匹配(individual matching)
此種類型指的是以病例和對照個體為匹配單位進行匹配,1∶1匹配稱為配對,也就是說一個病例匹配一個對照,1∶2,1∶3,1∶n時直接稱為匹配。匹配比例越大,統計效率越高,但是比例數的增加和研究效率的提高是不成比例的,隨著比例超過4,研究效率的增長幅度越來越小,這樣會加大研究成本,進而降低研究整體效率。
3.匹配注意問題
匹配時需要確定匹配范圍,這個可以通過預調查進行,同時需要關注匹配范圍所導致的殘余混雜。一般而言,匹配可以提高研究效率,控制混雜因素,但是匹配因素過多會使得研究結果推廣性欠佳,且難以獲取滿足要求研究對象,甚至會造成過度匹配(over matching),降低整體研究效率。
三、研究對象的選擇
病例對照研究中,研究對象的選擇是非常重要的一部分。病例的來源決定著對照的來源,而正確選擇對照是病例對照研究中非常重要的問題。
病例與對照的來源主要有兩個方面:一個是研究對象均來自醫院稱為以醫院為基礎的病例對照研究(hospital based case control study);另一個是來自于社區人群稱為以社區為基礎的病例對照研究(community based case control study)。
(一)病例的選擇
病例的選擇需要明確疾病診斷標準,所獲得的病例一般需要通過權威醫療機構診斷證明或者經過專家的確診。
病例選擇類別通常有新發病例、現患病例、死亡病例三種選擇。新發病例對于自己患病前暴露回憶清晰,較少引入回憶偏倚;現患病例易于配合研究,但是對暴露回憶時準確性較新發病例要差,會引入回憶偏倚;死亡病例資料的收集主要是依據死者親屬、鄰居等人的回憶而獲得,其準確性不佳。
(二)對照選擇
在病例對照研究中對照是否能合理正確的選擇關系到研究的成敗。腫瘤流行病學研究中對照需要注意以下幾個方面。
1.對照選擇的原則
(1)排除選擇偏倚,縮小信息偏倚,縮小不清楚或不能很好測量的變量引起的殘余混雜,滿足真實性跟邏輯限制的前提下使統計把握度達到最大。
(2)來源是與產生病例源人群中的無偏樣本,其患病狀態也應該經過相應的金標準診斷確定。
(3)對照能代表源人群的暴露水平。
2.對照的來源及選擇
(1)醫院對照:選擇與病例所在同一家醫院的非患目標疾病的病人作為對照。以醫院病人為對照具有數量多,來源廣,資料易收集的特點。雖然存在明顯的選擇偏倚,研究結果的可靠性受限,但是由于其實施較易,所以通常采用較多。
(2)人群對照:主要是選擇病人所在社區中的健康人群,此對照的代表性好,可以減少選擇偏倚,研究結果的外推性較佳。
(3)鄰居、同胞、配偶及朋友對照:鄰居對照可以避免社會經濟因素的混雜作用;同胞對照可以避免早期環境因素混雜,控制遺傳因素,使其達到平衡;配偶對照可以控制成年期環境暴露的混雜作用。
3.以醫院為基礎病例對照研究選擇對照原則
(1)對照應該包含多種疾病,可以避免過多地代表某一類病人。
(2)病例盡量來自新發病例,避免研究因素受到疾病遷延的影響。
(3)納入的病例不能同時患有多種疾病,尤其是影響暴露資料收集的疾病。
(4)對照不能患有與研究因素有關的疾病,而且對照所患疾病不能與目標疾病有共同危險因素。
四、樣本大小的確定
(一)影響樣本大小的四個參數
1.研究因素在對照組(一般人群)中的暴露率( p 0)。
2.估計的該因素引起的相對危險度( RR)或暴露的比值比( OR)。
3.希望達到的檢驗顯著性水平,即假設檢驗第Ⅰ類錯誤的概率α。
4.希望達到的檢驗把握度(1 -β),亦稱功效。產生統計學假設檢驗第Ⅱ類錯誤的概率。
5.同時需要考慮到可能出現的無應答率,病例與對照之間的比例。
(二)成組設計樣本量估計
計算公式:
式中n為病例組或對照組人數,U α和U β分別為與α和β值對應的標準正態分布分位數。 p 0和 p 1分別為對照組及病例組估計的某因素暴露率。
例:擬進行一項病例對照研究,研究吸煙與肺癌的關系。預期吸煙者的相對危險度為2.0,人群吸煙率約為20%,設α=0.05(雙側),β=0.10,估計樣本含量n。
即每組需要調查232人。配對設計及多組匹配設計樣本量計算較為復雜,可以參考統計學書籍。
五、研究因素的選定及測定
研究中需要收集的信息有研究因素、其他可疑的因素以及可能的混雜因素等。變量信息的獲取主要是靠調查表,所以病例組和對照組應該使用相同的調查表,采用相同方式進行調查。
1.變量的選定
變量的選擇與研究目的緊密相關,與研究有關的變量一個不能少,而且應該細致和深入。比如研究吸煙和肺癌之間關系的時候,需要明確吸煙這個變量,具體到吸煙的劑量、種類、次數等都需要明確。與研究無關的變量最好不要納入調查表中。
2.變量的定義
采用公認的標準或者國際標準對變量進行定義,以便進行研究之間的比較。
3.變量的測定
變量的測定需要采用標準的測定方法,通過詢問和儀器的測量可以獲得定量資料,因此在研究中應該盡可能地采用定量或者半定量的量度。
六、資料收集及整理
(一)資料收集
在對研究進行設計之后,需要明確資料收集的相關內容,以獲取能夠滿足研究需求的可靠資料。
1.資料來源
醫院病案記錄,疾病登記報告等;檢測病人的標本獲得;病例或對照的詢問調查中獲得。
2.資料收集方式
問卷調查;閱讀文獻;采樣化驗;實驗室檢查;家庭成員的詢問。
(二)資料整理 1.原始資料的核查
收集的資料需要經過核查、驗收、修正、歸檔等一系列步驟,以保證所獲得資料盡可能地完整和高質量。
2.原始資料的錄入
資料核查結束之后需要經過編碼,輸入計算機,建立數據庫。
七、資料分析
流行病學資料的分析比較注重對暴露效應的估計和因果關聯的推斷分析。其中核心的內容是:比較病例和對照中暴露因素的比例;估計暴露因素和疾病之間的關聯強度;計算疾病和暴露之間的劑量反應關系;估計因素之間可能的交互作用等。
(一)描述性分析 1.描述入選研究對象的一般特征
主要是人口學特征及既往疾病史,頻數匹配應該描述匹配因素的頻數比例。
2.均衡性檢驗
主要是比較病例組和對照組的基本特征是否相同,檢驗比較組間的可比性。
(二)統計性推斷
病例對照研究中表示疾病和暴露之間關聯強度的指標稱比值比(odds ratio,OR)。比值即為某事物發生的可能性與不發生的可能性之比。表12-2為病例對照研究資料整理的基本格式。
表12-2 病例對照研究資料整理
根據表12-2,可以得出病例對照研究中病例組的暴露比值:
對照組中暴露比值:
由此可得比值比:
病例對照研究中一般難以估計發病率,更無法直接計算相對危險度,但是相關研究證明當疾病的頻率小于5%時,OR為RR的極好近似值,可以用OR對RR值進行估計。其中OR值的含義與RR含義是相似的,表示暴露組人群患目標疾病的風險為非暴露組人群的多少倍。OR>1,說明疾病與暴露之間的關聯是正相關,疾病的發病風險隨著暴露的增加而增大;OR<1,說明疾病與暴露因素之間是負相關,疾病發病風險隨著暴露程度的增加而減小。
1.暴露與疾病的統計學關聯
檢驗病例組和對照組兩組暴露率差異是否具有統計學意義。公式如下:
值得注意的是此公式在N<40,或者四格表中有一個格子理論數小于5時,需要進行校正,校正公式為:
2.不匹配不分層的資料分析
例如吸煙與食管癌的病例對照研究中,數據見表12-3。
表12-3 吸煙與食管癌關系病例對照研究結果
檢驗結果: p<0.05,表明吸煙與食管癌有關聯,但是到底關聯強度多大,需要計算 OR值:
按照Miettinen卡方值計算OR值的95%置信區間CI:
結果表明吸煙者患食管癌的危險性是不吸煙者的2.87倍,95%可信區間是2.18~3.78之間。
3.分層資料的分析
用以分層的因素是可能的混雜因素,通過分層可以控制這些因素對研究結果的干擾。
(1)分層分析的目的:
評價分層因素本身的作用;評價分層因素與暴露時間的交互作用。基本整理形式如表12-4。
表12-4 分層資料的整理表
例如研究吸煙與食管癌關系的病例對照中,按飲酒與食管癌的關系列表計算見表12-5。
表12-5 飲酒和食管癌關系
X 2=31.9, OR =2.29,可見飲酒與食管癌有聯系。
(2)分層分析:
按飲酒與否分層如表12-6。
表12-6 按飲酒與否分層分析食管癌與吸煙的關系
飲酒者中吸煙的OR(2.98)稍高于不分層OR(2.87),不飲酒者中吸煙的OR (1.67)卻低很多,表明飲酒是混雜因素,飲酒是可加強吸煙的作用。
(3)計算分層后合并OR值
按照Mantal-Haenszel提出的公式:
本例中OR MH=2.42,可見合并后OR>1,意味著吸煙可能是食管癌的危險因素,但是具體結果還需要進一步檢驗。
(4)用Mantel-Haenszel提出的公式計算總的X2值
式中∑E(a i)為∑a i的理論值:∑E(a i)=∑m 1in 1i/t i
式中∑V(a i)為∑a i的方差:
根據表中的數據計算結果:
(5)估計總OR值95%可信區間:
本例采用Miettinen法計算
OR MH的95%CI為1.83~3.21。合并后的 OR值區間不包含1,表明所求 OR值具有統計學意義。
經飲酒分層調整后,吸煙的X 2與 OR(即合并X 2與合并 OR)雖較未調整的X 2 (55.5)與OR(2.87)為低,但是關聯具有統計學意義。吸煙與食管癌之間有顯著的關聯,飲酒是吸煙與食管癌之間的混雜因素,似能加強吸煙的作用。
4.1∶1配對資料的分析
匹配資料是由病例與對照結合成對子,分析結果時不應把對子拆開分析,先將資料列成下表的格式,注意表12-7內的數字a、b、c、d是病例與對照配成對的對子數。
表12-7 1∶1配對研究中疾病與暴露的關系
食管癌發病因素的研究中發現,吸煙與發病有關,男性的資料歸納成表12-8。
表12-8 93對男性食管癌與對照的吸煙史
X 2=11.28,OR =4.33,表明男性吸煙者患食管癌的危險性是不吸煙者的4.3倍。
OR的95%可信區間:
=(1.84,10.18)
5.分級暴露資料的分析
如果獲得某因素不同水平的資料,可以用來分析暴露和疾病的劑量反應關系,以增強因果推斷的效能。其大體的分析過程:將資料整理歸納成列聯表,對列聯表內數據進行X 2檢驗計算各分級的OR值。相應計算及公式可以參考統計學書籍。
八、偏 倚
常見的偏倚主要有選擇偏倚、信息偏倚、混雜偏倚。
(一)選擇偏倚(selection bias)
在選擇病例組和對照組研究過程中產生的各種偏倚稱為選擇偏倚,主要表現為入選的研究對象不具有代表性。
1.入院率偏倚(admission bias)
又稱為Berkson bias當利用醫院的病人作為研究對象時,由于所能抽取的病例是某家醫院或者某幾家醫院的特定病例,而且醫院和病例之間存在雙向選擇,同時所選擇的對照只是醫院的部分病人,不是全體目標人群的一個隨機樣本,因此難免產生偏倚,特別常見于因為入院率的不同而導致的選擇偏倚。
2.現患病例-新發病例偏倚(prevalence-incidence bias)
又稱為Neyman bias如果研究對象選自現患病例,所得到的信息很多是與存活相關,而不一定與發病相關;現患者可能改變了以往的生活習慣,減少了某些因素的暴露水平,從而導致某一因素與疾病錯誤的關聯,由此而產生的系統誤差為現患病例-新發病例偏倚。
3.檢出癥候偏倚(detection signal bias)
又稱為暴露偏倚(unmasking bias)某種因素與研究疾病在病因學上無關,但是由于這種因素的存在,導致與該目標疾病相關的一些癥狀表現出來,使得該病部分患者及早就醫,使得該人群中疾病的檢出率高于一般人群,從而得出該因素與疾病之間存在關聯性的錯誤結論。由此而產生的系統誤差稱為檢出癥候偏倚,此偏倚在對一些慢性疾病如腫瘤、動脈粥樣硬化(AS)中有著重要的研究意義。
4.時間效應偏倚(time effect bias)
對于腫瘤、冠心病等慢性疾病而言,從開始暴露于危險因素到出現病變,往往經歷了一個比較長的時期。在開展病例對照研究中,那些暴露了即將發生病變的人,已經發生病變但是不能檢出的人或者在調查中已有病變但是缺少早期檢出的手段而錯誤認為非病例的人,都可能被選入對照組,進而產生結論上的誤差。
(二)信息偏倚(information bias)
指在研究實施階段從研究對象獲取研究所需信息時所產生的系統誤差。在腫瘤流行病學病例對照研究中可以分為以下兩種:回憶偏倚(recall bias)和調查者偏倚(investigation bias)。
1.回憶偏倚
病例對照研究主要是調查研究對象既往的暴露情況,由于被調查者對過去暴露回憶不準確而造成的系統誤差。與調查時間和事件發生的時間間隔、事件的重要性、被調查者的構成以及詢問技術有關。
2.調查者偏倚
此類偏倚可以來自調查對象、調查者雙方。病例與對照的調查環境與條件不同調查技術,調查質量不高或差錯以及儀器設備的問題均可導致偏倚產生。如調查者在收集資料時對病例組和對照組的態度不一樣、詢問仔細程度不一樣,對病例組仔細或對自身關心問題仔細,對對照組不仔細等。
(三)混雜偏倚(confounding bias)