課程內容
《回歸分析的基本思想及其初步應用》
在現實中,我們經常會遇到類似下面的問題:
肺癌是嚴重威脅人類生命的一種疾病,吸煙與患肺癌有關系嗎?肥胖是影響人類健康的一個重要因素,身高和體重之間是否存在線性相關關系?等等。
為了回答這些問題,必須明確問題涉及的對象(總體)是什么?用怎么的量來描述要解決的問題,并確定獲取變量值(數據)的方法,然后用恰當的方法分析數據,以得到最可靠的結論。
在必修模塊中,我們學習過關于抽樣、用樣本估計總體、線性回歸基本知識,本章中,我們
將在此基礎上,通過對典型例安的討論,進一步討論線性回歸分析方法及其應用,并初步了解獨立性檢驗的基本思想,認識統計方法在決策中的作用。
我們知道,函數關系是一種確定性關系,而相關關系是一種非確定關系,回歸分析(regression analysis)是對具有相關關系的兩個變量進行統計分析的一種常用方法。在《數學3》中,我兩個具有線性相關關系的變量利用回歸分析的方法進行了研究,其步驟為畫散點圖,求回歸直線方程,并用回歸直線方程進行預報。
探究:對于一組具有線性相關關系的數據(X1,Y1),(X2,Y2),…,(Xn,Yn),我們知道其回歸方程的截距和斜率的最小二乘估計公式分為:
^a=(-,y)-^b(-,x)(1)
^b=(nΣi=1){(xi-(-,x))(yi-(-,y))/(nΣi=1)(xi-(-,x))2,(2)
其中(-,x)=1/n (nΣi=1)xi,(-,y)=(nΣi=1)yi.((-,x)(-,y))稱為樣本點的中心。
回歸直線過樣本的中心。
例1:從某大學中隨機選取8名女大學生,其身高和體重數據如表3-1所示。
編號 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
身高(cm) | 165 | 165 | 157 | 170 | 175 | 165 | 155 | 170 |
體重(kg) | 48 | 57 | 50 | 54 | 64 | 61 | 43 | 59 |
求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。
解:由于問題中要求根據身高預報體重,因此選取身高為自變量x,真實體重為因變量y,作散點圖。
從圖中可以看出,樣本點呈條狀分布,身高和體重比較好的線性相關關系,因此可以用紀律性回歸方程刻畫它們之間的關系。
根據探究中的公式(1)和(2),可以得到
^a=-85.712,^b=0.849。
于是得到回歸方程^y=0.849-85.712。
所以,對身高為172cm的女大學生,由回歸方程可以預報其體重為
y=0.849×172-85.712=60.316(kg)。
b=0.849是斜率的估計身高x每單位時,體重y就增加0.849個單位,這表明體重與身高具有正的線性相關關系,如何描述它們之間線性相關關系的強弱?
在必修3中,我們介紹了用相關系數r來衡量兩個變量之間線性相關關系的方法,樣本相關系數的具體計算公式為:
r=(nΣi=1){(xi-(-,x))(yi-(-,y))/√{(nΣi=1)(xi-(-,x))2(nΣi=1)(xi-(-,x))2 }。
當r﹥0時,表明兩個變量正相關,當r<0時,表明兩個變量負相關r的絕對值越接近1,表明兩個變量的線性相關性超強;r越接近于0時,表明兩個變量之間幾乎不存在線性相關的關系,通常,當r大于0.75時,認為兩個變量有很強的線性相關關系。
在本人例中,可以計算的線性r=0.798,這表明體重與身高有很強的線性相關關系,從而也表明我們建立的回歸模型是有意義的。
探究:身高172cm的女大學生的體重一定是60.316kg嗎?如果不是,其原因是什么?
顯然,身高172cm的女大學生的體重不一定是60.316kg但一般可以認為她的體重接近于60.316kg,圖3.1-2中的樣本點和回歸直線的相互位置說明了這一點。
由于所有的樣本點不共線,而只是散布在某一條直線的附近,所以身高和體重的關系,可以用下面的線性回歸模型來表示:y=bx+a+e,(3)
與函數相關不同,在回歸模型中,y的值由x和隨機因素e共同確定,即x只能解釋部分y的變化,因此我們把x稱為解釋變量,把y稱為預報變量。
我們可以用下面的線性回歸模型來表示:
y=bx+a+e,
其中a和b為模型的未知參數,e稱為隨機誤差。
值^y與真實值y之間的誤差的原因之一,其大小取決于隨機誤差。
別一方面,由于公式(1)和(2)中的^a和^b為截距和斜率的估計值,它們與真實值a和b之間的也存在誤差,這種誤差是引起預報值^y與真實值y之間誤差的另一個原因。
思考 產生隨機誤差項e的原因是什么?
實際上,一個人的體重除了受身高的影響外,還受許多其他因素的影響,例如飲食習慣、是否喜歡運動,度量誤差等,另外,我們選用的線性模型往往只是一種近似的模型,所有這些因素都會導致隨機誤差項e的產生。
探究 在線性回歸模型中e是用(-,y)預報真實值y的誤差,它是一個不可觀測的量,那么應該怎么樣研究隨機誤差?如何衡量預報的精度?
解決問題有途徑是通過樣本的估計來研究。
根據截距和斜率的估計公式(1)和(2),可以建立回歸方程^y=^bx+^a,
因此^y是(5)中~y的估計值,由于隨機誤差e=y-~y,
所以^e=y-^y是e的估計量。
對于樣本點(X1,Y1),(X2,Y2),…,(Xn,Yn),
而言,相應它們的隨機誤差為
e1=y1-~y1=y1-^bx1-a,i=1,2,…,n。
其估計值為
e1=y1-~y1=y1-^bx1-a,i=1,2,…,n。
在研究兩個變量的關系時,首先要根據散點圖來粗略判斷它們是否相線性相關,是否可以用線性回歸模型來擬合數據,然后,可以通過殘差^e1,^e2,…,^en。來判斷模型擬合的效果,判斷原始數據中是否存在可疑數據,這方面的分析工作稱為殘差分析。
編號 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
身高/cm | 165 | 165 | 157 | 170 | 175 | 165 | 155 | 170 |
體重/kg | 48 | 57 | 50 | 54 | 64 | 61 | 43 | 59 |
殘差^e | -6.373 | 2.627 | 2.419 | -4.618 | 1.137 | 6.627 | -2.883 | 0.382 |
我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可選為樣本編號,或身高數據,或體重估計值等,這樣作出的圖形為殘差圖。圖3.1-3是以樣本編號為橫坐標的殘差圖。
從圖3.1-3中可以看出,第1個樣本點和第6個樣本點的殘差比較大,需要確認在采集這兩個樣本過程中是否有人為的錯誤,如果數據采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數據;如果數據數據采集沒有錯誤,則需要尋找其他的原因,另外,殘差點比較均勻地落在水平的帶狀區域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精確度越高。
另外,我們還可以用相關指數R2來刻畫回歸效果:
其計算公式是:R2=1-(nΣi=1){(yi-^yi)2/(nΣi=1)(yi-(-,y)2。
在含有一個解釋變量的線性模型中R2恰好等于相關系數r的平方。
顯然,R2取值越大,意味著殘差平方和越小,也就是說模型的擬合效果真好,在線性回歸模型中R2表示解釋變量對于預報變量變化的貢獻率,R2越接近于1,表示回歸的效果越好(因為R2越接近于1,表示解釋變量和預報變量的線性相關性超強),如果對某組數據可能性采取幾種不同的回歸方程進行分析,也可以通過比較幾個R2,選擇R2大的模型作為這組數據的模型。
在例1中R2=0.64,表明“女大學生身高解釋了64%的體重變化”,或者說“女大學生體重差異有64%是由身高引起的”。
用身高預報體重時,需要注意下列問題:
1.回歸方程只適用于我們所研究的樣本的單體,例如,不能用女大學生的身高和體重之間的回歸方程描述女運動員的身高和體重之間的關系,同樣,不能用生長在南方多雨地區的樹木的高與直徑之間的回歸方程,描述北方干旱地區的樹木的高盧直徑之間的關系。
此內容正在抓緊時間編輯中,請耐心等待
孫老師
男,中教高級職稱
在教學中勤懇敬業,教學成績優異,多次被評為“優秀數學教師”稱號。