字词 | 直线回归 | ||||
类别 | 中英文字词句释义及详细解析 | ||||
释义 | 直线回归linear regression指两种现象或事物的数量变化存在着互相依存的因果关系。由一种变量(自变量x)的变化,根据直线回归关系的函数方程,计算出另一种变量(因变量y)的变化,即由一种变量的实际值计算出另一种变量的估计值。 直线回归 直线回归直线回归是处理两变量(其中至少有一个是随机变量)间线性依存关系的一种统计分析方法。如人的体重与体表面积之间存在着一定的关系,其散点图呈一直线趋势,(见图1)。根据各对观察值可求得一直线方程,以说明两变量间依存变化的数量关系。但图中各观察点并不完全在一直线上,与数学上完全确定的函数图象不同,这种直线方程具有某种不确定性,称为直线回归方程。 根据最小二乘法原理,式(1)中b和a可按式(2)和式(3)求得,此时估计误差平方和∑(Y-Ŷ)2最小。 式(2)中lXX为X的离均差平方和,lXY为离均差积和,算法如下:
式中n为样本含量。 若要求直线过定点(X0,Y0),则 若要求直线过(0,0)点,则 当观察点的直线趋势很明显时,亦可用目测法等求直线回归方程。 用最小二乘法计算直线方程的步骤: (1)将n对观察值在直角坐标纸上绘散点图,如果散点呈直线趋势,再进行下列步骤。 (2)计算∑X,∑X2,∑Y,∑XY。 (3) 求, ![]() (4)按式(2)与式(3)求b、a得直线方程。 (5) 画直线。取相距较远的两X值,分别代入方程求出相应的Ŷ值,得两点坐标,过此两点的直线即回归直线。 例1 测得某地3岁儿童10人的体重与体表面积见表1,试求由体重推算体表面积的回归方程。 表1 某地三岁儿童10人的体重与体表面积
图1 某地3岁儿童体重推算体表面积的直线回归方程散点呈直线趋势(见图1)。 直线回归方程的假设检验 亦即回归系数的假设检验。观察值Y1,Y2,…,Yn之间的变异由两方面的原因引起:自变量X的变化和其他因素如实验误差等的影响。为了检验哪方面的影响是主要的,先将Y变异的总离均差平方和SS总(即lYY)分解为两部分(见图1示意): 如果Y与X之间无直线关系,那么样本所来自的总体的回归均方与剩余均方应相等,或回归系数β=0;反之,β≠0。所以要检验Y与X之间是否有直线关系,可用F检验或t检验。检验假设H0为β=0,检验结果若不拒绝H0,不能认为X与Y之间有直线关系;若拒绝H0,则可认为有直线关系,只有这时才能求直线回归方程。检验步骤: (1) 求∑X,∑Y,∑X2,∑Y2,∑XY; (2) 求lXX,lYY,lXY; (3)若用F检验,则按式(6)计算统计量F值。 式中SS回按式(4)计算,SS剩按式(5)计算,求得F值后,查F界值表得P值,按所取检验水准作出推断结论。 若用t检验,则按式(7)计算统计量t值。 式中b按式(2)计算:分母为回归系数的标准误sb,其中sY·X为剩余标准差,即剩余均方的平方根,按式(8)计算。 对同一资料,这两种检验所得的结论是一致的,因为在v1=1时,t= ![]() 例2 对例1的直线回归方程(或回归系数)作假设检验。 H0: β=0, H1: β≠0。 α=0.05。 由例1得∑X=134.40,∑Y=57.266, ∑X2=1831.24,∑Y2 = 329.4834,∑XY=775.5946;lXX=24.9040,lXY=5.9396。 (1) F检验。由式(4)~(6) 今v1=1,v2=10-2=8,查F界值表,得P<0.01。按α=0.05水准拒绝H0,接受H1,可认为两变量间有直线关系,可以求直线回归。 (2) t检验。前已求得SS剩=0.1273 ,b=0.2385,lxx=24.9040,代入式(8)及式(7): v=10-2=8。查t界值表得P<0.01,按α=0.05水准拒绝H0,接受H1。结论同F检验。这里t= ![]() ![]() 作直线回归分析时应注意: (1)两变量间的关系必须有实际意义。 (2)计算直线回归的两变量,若X为选定的,则对应于每个X值的Y值须服从正态分布,其Y即Y的均数;若X、Y都是随机变量,则要求X、Y服从双变量正态分布。否则须先经变量变换,使资料符合要求后再进行回归分析。 (3)用同一资料计算由X推算Y (b1=lXY/lXX,α1= ![]() ![]() (4)观察值必须是同质的。如果有两个不同的子群,可能产生实际上不存在的回归[图2(a)],也可能忽视了确实存在的回归关系[图2(b)]。 (a) 误为有回归 (b) 回归被忽视 图2 存在两个子群对回归的影响 (5) 回归方程一般只适用于自变量X的原观察数据范围,而且实验条件也应与取得原观察数据时的实验条件一致。 (6)直线回归的数学模型为 Y=a*+βX+ε, 式中a*为总体回归直线在Y轴上的截距,β为总体回归系数,ε为观察点(X,Y)与直线的偏离(纵向距离),是由实验过程中一些随机因素造成的误差。应用最小二乘法的条件是假定误差ε独立,且各X值处ε的方差相等,若违反此假定则不适用:如(1)Y值在时间(或空间)上接近者比相距较远者更相似,即Y值存在自相关;或(2)散点(X,Y)呈扇形分布,即X增大时Y的方差亦增大。☚ 升降趋势检验 总体回归直线的估计 ☛ |
||||
随便看 |
|
文网收录3541549条中英文词条,其功能与新华字典、现代汉语词典、牛津高阶英汉词典等各类中英文词典类似,基本涵盖了全部常用中英文字词句的读音、释义及用法,是语言学习和写作的有利工具。