榴莲视频官网_国产尤物精品视频_在线成年人视频_国产一区二区三区夜色

首頁 > 人教版 > 高中 > 數學 > 選修1 > 正文

高中數學第一章1.2《獨立性檢驗的基本思想及其初步應用》(選修1-2)

點贊 收藏 評價 測速
課堂提問

課程內容

《獨立性檢驗的基本思想及其初步應用》
對于性別變量,其取值為男和女兩種,這種變量的不同“值”表示個體所屬的不同類別,你這類變量稱為分類變量。在現實生活中,分類變量是大量存在的,例如是否吸煙,宗教信仰、國籍,等等。
在日常生活中,我們常常關心兩個分類變量之間量來有關系,例如,吸煙與肺癌與吸煙是否有關系?性別對于是否喜歡數學課程有影響?等等。
探究:為調查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調查了9965人,得到如下結果(單位:人)
表1-7吸煙與患肺癌列聯表

  不患肺癌  患肺癌  總計 
 不吸煙  7775 42  7817 
 吸煙  2099 49  2148 
 總計  9874 91  9965 
那么吸煙是否對肺癌有影響?
像表1-7這樣列出的兩個分類變量的頻數表,稱為列聯表,由吸煙情況和患肺癌情況的列聯表可以粗略估計出:在不吸煙者中,有0.54%患有肺癌;在吸煙者中,有2.28%患有肺癌,因此,直觀上可以得出結論;吸煙者和不吸煙者患肺癌可能存在差異。
與表格相比,三維柱形圖和二維條形圖能更直觀的=地反映出相關數據的總體狀況。


圖1.2-1是列聯表的三維柱形圖,從中能清晰地看出各個頻數的相對大小。
作三維柱形圖要注意選擇恰當的視角,以使每個柱體都能看到。
圖1.2-2是疊在一起的二維條形圖,其中綠色條高表示不患肺癌的人數,黒色條高表示患肺癌的人數,從圖中可以看出,吸煙者中患肺癌的比例高于不吸煙者中患肺癌的比例。
為了更清晰地表達這個特征,我們還可以用如下的等高條形圖表示兩個情況下患肺癌的比例,如圖1.2-3所示,在等高條形圖中,綠色的條高表示不患肺癌的百分比;黒色的條高表示患者肺癌的百分比。
上面我們通過分析數據和圖形,得到的直觀印象是吸煙和患肺癌有關,那么事實是否真的如此呢?或者說我們能夠以多大的把握認為“吸煙與患肺癌有關”呢?
為了回答上述問題我們先假設
Ho:吸煙與患肺癌沒有關系
用A來表示不吸煙,B表示不患肺癌,則“吸煙與患肺癌沒有關系”等價于“吸煙與患肺癌獨立”即Ho等價于P=(AB)=P(A)P(B)
把表1-7中的數字用字母代替,得到如下用字母表示的列聯表

   不患肺癌 患肺癌  總計 
 不吸煙  a  b  a+b
 吸煙  c  d  c+d
 總計  a+c  b+d  a+b+c+d
a/n≈(a+b)/n×(a+c)/n,其中n=a+b+c+d各樣本容量,即(a+b+c+d)a≈(a+b)(a+c),即ad≈bc。因此∣ad-bc∣越小,說明吸煙與患肺癌之間關系越弱;∣ad-bc∣越大,說明吸煙與串肺癌之間關系越強。
為了使不同樣本容量的數據有統一的評判標準,基于上面的分析,我們構造一個隨機變量
K2=n(ad-bc)2/(a+b)(c+d)(a+c)(b+d)(1)
其中n=a+b+c+d為樣本容量
若HO成立,即“吸煙與肺癌者沒有關系”,則K2應該很小現在,根據表1.7中的數據,利用公式(1)計算得K2的觀測值為
k={9965×(7775×49-42×2099)2}/{7817×2148×9848×91}=56.632
這個值是不是很大呢?
在Ho成立的情況下,統計學家估算出如下概率P(K2≥6.635)≈ 0.01(2)
即在Ho成立的情況下K2的值大于6.635的概率非常小近似于0.01,也就是說,在Ho成立的情況
正下對隨機變量K2進行多次觀測,觀測值超過6.635的頻率約為1/100。
在(2)中n越大,近似程度越高,在實際應用中,通常要求a,b,c,d都不小于5。
思考 如果K2≥6.635,就斷定HO不成立,這種判定出錯的可能性有多大?
現在觀測值k≈56.632遠遠大于6.635,在Ho成立的條件下,由(2)式可知能夠出現這樣的觀測值班的概率不超過0.01,因此,我們有99%的把握認為Ho不成立,即有99%的把握認為“吸煙與肺癌有關系”。
上面這種利用隨機變量K2來確定在多大程度上可以認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗。
獨立性檢驗的基本思想類似于反證法,要確認“兩個分類變量有關系”這一結論成立的可信程度,首先假設該結論不成立,即假設結論“兩個分類變量沒有關系”成立,在該假設下構造的隨機變量K2應該很小,如果由觀測數據計算得到K2的觀測值很大,則在一定程度上說明假設不合理,根據隨機變量K2的含義,可以通過概率(2)式評價該假設不合理的程度,由實際計算出的k﹥6.635,說明假設不合理的程度為99%,即“兩個分類變量有關系”這結論成立的可信程度約為99%。
思考 利用上面的結論,你能從列聯表的三維柱形圖中看出兩個分類變量是否相關系?
一般地,假設兩個分類變量X和Y,它們值域分別為{x1,x2}和{y1,y2},其樣本頻數列聯表(稱為2×2列聯表)為:
表1-9    稱為2×2列聯表

   y1  y2  總計
 x1  a  b  a+b
 x2  c  d  c+d
 總計  a+c  b+d  a+b+c+d

若要推斷的結論為H1:“X與Y有關系”,可以按如下步驟判斷結論H1成立的可能性:
1.通過三維柱形圖和二維條形圖,可以粗略地判斷兩個分類變量是否有關,但是這種判斷無法精確地結出所得結論的可靠程度。
(1)在三維柱形圖中,主要對角線上兩個柱形高度的乘積ad與副對角線上的兩個想得開高度的乘積bc相差越大H1成立的可能性越大。
(2)在二維條形圖中,可以估計滿足條件X =x1的個體中具有Y=y1的個體所占的比例a/(a+b),也可以估計滿足條件X=x2的個體中具體有Y=y1體所占比例c/(c+d)兩個比例的值相差越大,H1成立的可能性越大。
2.可以利用獨立檢驗來考察兩個分類變量是否有關系,并且能較精確地給出這種判斷的可靠程度,具體做法是:根據觀測數據計算則(1)式給出的檢驗隨機變量K2的值k,其值越大說明“X與Y有關系”成立的可能性越大,當得到的觀測數據a,b,c,d都不小于5時,可以通過查閱
下表(1-10)來確定結論“X與Y有關系”的可信程度。
例如
(1)如果k﹥10.828,就有99.9%把握認為“X與Y有關系”;
(2)如果k﹥7.879,就有99.5%把握認為“X與Y有關系”;
(3)如果k﹥6.635,就有99%把握認為“X與Y有關系”;
(4)如果k﹥5.024,就有97.5%把握認為“X與Y有關系”;
(5)如果k﹥3.841,就有95%把握認為“X與Y有關系”;
(6)如果k﹥2.706,就有90%把握認為“X與Y有關系”;
如果k≤2.706,就認為沒有充分的證據顯示“X與Y有關系”。

此內容正在抓緊時間編輯中,請耐心等待

孫老師

男,中教高級職稱

在教學中勤懇敬業,教學成績優異,多次被評為“優秀數學教師”稱號。

評論

點此登錄 后即可暢所欲言

[廣西玉林市] good

zry533000

2017-02-04 09:46:21

聯系我們 版權說明 幫助中心 在線客服

?2016 同桌100 All Rights Reserved