字词 | 逐步回归分析 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
类别 | 中英文字词句释义及详细解析 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
释义 | 逐步回归分析 逐步回归分析逐步回归是多元回归中用以选择自变量的一种常用方法。本条目重点介绍的是一种“向前法”。此法的基本思想是:将自变量逐个地引入方程,引入的条件是该自变量的偏回归平方和在未选入的自变量(未选量)中是最大的,并经F检验是有显著性的。另一方面,每引入一个新变量,要对先前已选入方程的变量(已选量)逐个进行F检验,将偏回归平方和最小且无显著性的变量剔除出方程,直至方程外的自变量不能再引入,方程中的自变量不能再剔除为止。另一种是“向后法”,它的基本思想是:首先建立包括全部自变量的回归方程,然后逐步地剔除变量,先对每一自变量作F(或t)检验,剔除无显著性的变量中偏回归平方和最小的自变量,重新建立方程。接着对方程外的自变量逐个进行F检验,将偏回归平方和最大且有显著性的变量引入方程。重复上述过程,直至方程中的所有自变量都有显著性而方程外的自变量都没有显著性为止(例见条目“多元线性回归”例1、2)。此法在自变量不多,特别是无显著性的自变量不多时可以使用。与一般多元回归相比,用逐步回归法求得的回归方程有如下优点:它所含的自变量个数较少,便于应用;它的剩余标准差也较小,方程的稳定性较好; 由于每步都作检验,因而保证了方程中的所有自变量都是有显著性的。逐步回归分析的主要用途是: 表1 原始数据格式
1. 先规定一个F*值,作为引入或剔除自变量时进行F检验的界值。对于给定的显著性水准a来说,每一步作检验时的Fa(1,n-m′-1)值是不同的,f但由于样本含量n比引入自变量的个数m′大得多(一般在10倍以上),所以各步的m′虽然不同,但Fa(1,n-m′-1)值都近似相等。故为方便起见,可取一个定数F*作为F检验的标准。2. 计算每个变量的均数j、离均差平方和(lii、ljj),每两个变量的离均差积和lij,以及相关系数rij 并以求得的rij为元素列出原始相关矩阵R(0)(阵中rij(0)=rij): 3. 选自变量。 (1) 引入未选量。按式(3)计算各未选量的偏回归平方和Vj(L+1) (2)剔除已选量。引入新变量后,对原先引入的已选量分别计算其偏回归平方和Vj(L): 当F2≤F*时,剔除Xb,并对R(L)按式(2)作变换Lb得R(L+1);下一步对其余已选量再按式(5)、(6)求Vj并作F检验,直到已选量中没有可剔除时为止;当F2>F*时,已选量都不能被剔除,于是再考虑从未选量中能否引入新变量。如此反复进行到第L步,若已选量都不能被剔除,未选量都不能引入时,逐步运算结束。 4. 求回归方程。由相关矩阵R(L)求得的回归方程 b'j=rj.m+1(L)。(7) 实用中多元线性回归方程常用变量Xj的原单位,因此须再按式(8)求化成原单位后Xj的偏回归系数bj式中lm+1,m+1=lYY,即Y的离均差平方和,ljj为Xj的离均差平方和。回归方程的常数项按式(9)计算, b0= Ŷ=b0+∑bjXj。 (10) 5. 回归方程的线性假设检验。按式(11)作方差分析。 回归的剩余标准差s按式(12)计算。 其意义及用途见条目“多元线性回归”。 多元相关系数R按式(13)计算,R的意义、用途及假设检验见条目“多元线性相关”。 求得多元线性回归方程后,就可利用它来进行预测,参见条目“多元线性回归”。 例 某单位为了研究正常少年儿童的心象面积与性别、月龄、身高、体重、胸围的关系,调查了521名2.5~15岁的正常少儿,资料见表2,试用逐步回归法求预测心象面积的回归方程。 表2 521名正常儿童各项指标的部分记录
*男记作1,女记作0 (1)规定F*值。本例n=521,估计可能选入4个自变量。对于给定的α=0.05,F0.05(1516)≐3.86,故取F*=3.86。 (2)计算各变量的均数j与离均差平方和ljj得:
以及离均差积和lij(略)。 计算相关系数rij,并以rij为元素列矩阵R(0)(rij(0)=rij), (3)选自变量。 第一步: 选第一个自变量。对全部自变量按式(3)计算Vi(1)得 同理,V3(1)=0.781203,V4(1)=0.745530,V5(1)=0.723041。其中V3(1)最大即Vα,按式(4)作F检验。
第二步:选第二个自变量。计算各未选量的Vj(2):V1(2)=0. 005523,V2(2)=0.000050,V(2)4=0.009755,V(2)5=0.010515,其中V5(2)最大,经F检验有显著性,故引入变量X5,对R(1)仍按式(2)作变换L5,这时g=5,L=1,得R(2)(略)。 第三步:由于新变量X5的引入方程,对原有变量X3应重新检验,为此计算V(2)3。按式(5)得 再按式(6)作F检验: 故X3不能剔除。于是考虑引入第三个自变量,计算各未选量的Vj(3):V1(3)=0.002888,V2(3)=0.000295,V4(3)=0.000928,其中V1(3)最大,经F检验有显著性,故引入X1,对R(2)作变换L1,这时g=1,L=2,得R(3)(略)。 第四步:由于X1的引入,对已选量X3、X5重作检验。计算得V3(3)=0.071558,V5(3)=0.007880,对其最小者作F检验,得 第五步:由于X4的引入,应对原有的X1、X2、X5重作检验,计算得V1(4)=0.004005,V3(4)=0.044834,V5(4)=0.000341,其中V5(4)最小。按式(6)作F检验, 故剔除XS。对R(4)仍按式(2)作变换L5,此时g=5,L=4,得R(5)(略)。 第六步:上步剔除了X5后,应考虑其余已选量X1、X3、X4还须剔除否。为此计算得V1(5) =0.005352,V3(5)=0.046192,V4(5)=0.009584,其中V1(5)最小。作F检验,得F2=13.59>F*。故已选量都不能剔除。再考虑未选量X2、X5能否选入。由于X5刚被剔除,可不考虑,为此计算V2(6)=0.000099,作F检验,得F1=0.25
再按式(8)换算成按原单位的偏回归系数,得 仿此,b3=0.474,b4=0.460。 按式(9), b0= ![]() =61.75-2.291 × 0.4875-0.474 × 124.47-0.460 × 24.76 =-9.755。 按式(10),得回归方程为 Ŷ=-9.755 + 2.291X1+0.474 X3 + 0.460X4 即心象面积(cm)2=-9.755+2.291性别(男为1,女为0)+0.474身高(cm)+0.460体重(kg)。 对此方程作线性假设检验。列方差分析表(表3),表中SS、ν、MS及F值均按式(11)求得。查F界值表,得P值,按a=0.05水准,此方程有显著性,即方程有效。 表3 方差分析
方程的线性假设检验还可按式(13)求得多元相关系数 查F界值表得P<0.01,结论同上。 ☚ 正交多项式 判别分析 ☛ 逐步回归分析 逐步回归分析stepwise regression analysis选择自变量以建立最优回归方程的回归分析方法。最优回归方程,指在回归方程中,包含所有对因变量有显著影响的自变量,而不包含对因变量影响不显著的自变量。过程是: 按自变量对因变量影响效应,由大到小逐个把有显著影响的自变量引入回归方程,而那些对因变量影响不显著的变量则可能被忽略。另外,已被引入回归方程的变量在引入新变量后,其重要性可能会发生变化,当效应不显著时,则需要从回归方程中将此变量剔除。引入一个变量或从回归方程中剔除一个变量都称为逐步回归的一步。每一步都要进行F检验,以保证在引入新变量前回归方程中只含有对因变量影响显著的变量,而不显著的变量已被剔除。直到回归方程中所有变量都不能剔除而又没有新变量可以引入时为止,逐步回归过程结束。实际应用时,需要注重逐步回归分析跟自己研究假设之间的关联。由于运算过程比较复杂,可通过统计软件中的回归分析模块进行。 ☚ 测定系数 多元回归分析 ☛ |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
随便看 |
|
文网收录3541549条中英文词条,其功能与新华字典、现代汉语词典、牛津高阶英汉词典等各类中英文词典类似,基本涵盖了全部常用中英文字词句的读音、释义及用法,是语言学习和写作的有利工具。