課程內容
《獨立性檢驗的基本思想及其初步應用》
對于性別變量,其取值為男和女兩種,這種變量的不同“值”表示個體所屬的不同類別,你這類變量稱為分類變量。在現實生活中,分類變量是大量存在的,例如是否吸煙,宗教信仰、國籍,等等。
在日常生活中,我們常常關心兩個分類變量之間量來有關系,例如,吸煙與肺癌與吸煙是否有關系?性別對于是否喜歡數學課程有影響?等等。
探究:為調查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調查了9965人,得到如下結果(單位:人)
表1-7吸煙與患肺癌列聯表
不患肺癌 | 患肺癌 | 總計 | |
不吸煙 | 7775 | 42 | 7817 |
吸煙 | 2099 | 49 | 2148 |
總計 | 9874 | 91 | 9965 |
像表1-7這樣列出的兩個分類變量的頻數表,稱為列聯表,由吸煙情況和患肺癌情況的列聯表可以粗略估計出:在不吸煙者中,有0.54%患有肺癌;在吸煙者中,有2.28%患有肺癌,因此,直觀上可以得出結論;吸煙者和不吸煙者患肺癌可能存在差異。
與表格相比,三維柱形圖和二維條形圖能更直觀的=地反映出相關數據的總體狀況。
圖1.2-1是列聯表的三維柱形圖,從中能清晰地看出各個頻數的相對大小。
作三維柱形圖要注意選擇恰當的視角,以使每個柱體都能看到。
圖1.2-2是疊在一起的二維條形圖,其中綠色條高表示不患肺癌的人數,黒色條高表示患肺癌的人數,從圖中可以看出,吸煙者中患肺癌的比例高于不吸煙者中患肺癌的比例。
為了更清晰地表達這個特征,我們還可以用如下的等高條形圖表示兩個情況下患肺癌的比例,如圖1.2-3所示,在等高條形圖中,綠色的條高表示不患肺癌的百分比;黒色的條高表示患者肺癌的百分比。
上面我們通過分析數據和圖形,得到的直觀印象是吸煙和患肺癌有關,那么事實是否真的如此呢?或者說我們能夠以多大的把握認為“吸煙與患肺癌有關”呢?
為了回答上述問題我們先假設
Ho:吸煙與患肺癌沒有關系
用A來表示不吸煙,B表示不患肺癌,則“吸煙與患肺癌沒有關系”等價于“吸煙與患肺癌獨立”即Ho等價于P=(AB)=P(A)P(B)
把表1-7中的數字用字母代替,得到如下用字母表示的列聯表
不患肺癌 | 患肺癌 | 總計 | |
不吸煙 | a | b | a+b |
吸煙 | c | d | c+d |
總計 | a+c | b+d | a+b+c+d |
為了使不同樣本容量的數據有統一的評判標準,基于上面的分析,我們構造一個隨機變量
K2=n(ad-bc)2/(a+b)(c+d)(a+c)(b+d)(1)
其中n=a+b+c+d為樣本容量
若HO成立,即“吸煙與肺癌者沒有關系”,則K2應該很小現在,根據表1.7中的數據,利用公式(1)計算得K2的觀測值為
k={9965×(7775×49-42×2099)2}/{7817×2148×9848×91}=56.632
這個值是不是很大呢?
在Ho成立的情況下,統計學家估算出如下概率P(K2≥6.635)≈ 0.01(2)
即在Ho成立的情況下K2的值大于6.635的概率非常小近似于0.01,也就是說,在Ho成立的情況
正下對隨機變量K2進行多次觀測,觀測值超過6.635的頻率約為1/100。
在(2)中n越大,近似程度越高,在實際應用中,通常要求a,b,c,d都不小于5。
思考 如果K2≥6.635,就斷定HO不成立,這種判定出錯的可能性有多大?
現在觀測值k≈56.632遠遠大于6.635,在Ho成立的條件下,由(2)式可知能夠出現這樣的觀測值班的概率不超過0.01,因此,我們有99%的把握認為Ho不成立,即有99%的把握認為“吸煙與肺癌有關系”。
上面這種利用隨機變量K2來確定在多大程度上可以認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗。
獨立性檢驗的基本思想類似于反證法,要確認“兩個分類變量有關系”這一結論成立的可信程度,首先假設該結論不成立,即假設結論“兩個分類變量沒有關系”成立,在該假設下構造的隨機變量K2應該很小,如果由觀測數據計算得到K2的觀測值很大,則在一定程度上說明假設不合理,根據隨機變量K2的含義,可以通過概率(2)式評價該假設不合理的程度,由實際計算出的k﹥6.635,說明假設不合理的程度為99%,即“兩個分類變量有關系”這結論成立的可信程度約為99%。
思考 利用上面的結論,你能從列聯表的三維柱形圖中看出兩個分類變量是否相關系?
一般地,假設兩個分類變量X和Y,它們值域分別為{x1,x2}和{y1,y2},其樣本頻數列聯表(稱為2×2列聯表)為:
表1-9 稱為2×2列聯表
y1 | y2 | 總計 | |
x1 | a | b | a+b |
x2 | c | d | c+d |
總計 | a+c | b+d | a+b+c+d |
若要推斷的結論為H1:“X與Y有關系”,可以按如下步驟判斷結論H1成立的可能性:
1.通過三維柱形圖和二維條形圖,可以粗略地判斷兩個分類變量是否有關,但是這種判斷無法精確地結出所得結論的可靠程度。
(1)在三維柱形圖中,主要對角線上兩個柱形高度的乘積ad與副對角線上的兩個想得開高度的乘積bc相差越大H1成立的可能性越大。
(2)在二維條形圖中,可以估計滿足條件X =x1的個體中具有Y=y1的個體所占的比例a/(a+b),也可以估計滿足條件X=x2的個體中具體有Y=y1體所占比例c/(c+d)兩個比例的值相差越大,H1成立的可能性越大。
2.可以利用獨立檢驗來考察兩個分類變量是否有關系,并且能較精確地給出這種判斷的可靠程度,具體做法是:根據觀測數據計算則(1)式給出的檢驗隨機變量K2的值k,其值越大說明“X與Y有關系”成立的可能性越大,當得到的觀測數據a,b,c,d都不小于5時,可以通過查閱
下表(1-10)來確定結論“X與Y有關系”的可信程度。
例如
(1)如果k﹥10.828,就有99.9%把握認為“X與Y有關系”;
(2)如果k﹥7.879,就有99.5%把握認為“X與Y有關系”;
(3)如果k﹥6.635,就有99%把握認為“X與Y有關系”;
(4)如果k﹥5.024,就有97.5%把握認為“X與Y有關系”;
(5)如果k﹥3.841,就有95%把握認為“X與Y有關系”;
(6)如果k﹥2.706,就有90%把握認為“X與Y有關系”;
如果k≤2.706,就認為沒有充分的證據顯示“X與Y有關系”。
此內容正在抓緊時間編輯中,請耐心等待
孫老師
男,中教高級職稱
在教學中勤懇敬業,教學成績優異,多次被評為“優秀數學教師”稱號。