十一、一元线性回归

十一、一元线性回归

00:00
14:37
十一、一元线性回归

1.简述一元回归模型的基本假设。 (*)
一元线性回归模型是描述变量y与x之间线性关系的数学结构式,其线性理论回
归模型为: 为方便参数估计,一元线性回归模型应满足以下基本假
设:
(1) 因变量y与自变量x之间的线性关系是客观存在的;
(2) 重复抽样中,x是非随机变量;
(3) 误差项ε的期望值为0, 即E(ε)=0;
(4) 对于所有的取值xᵢ(i=1, ……, n), 误差项ε具有相同方差, 即 且εᵢ是相互独立、服从正态分布N(0,σ²)的随机变量。
2.简述回归分析的一般过程。 (*)
回归分析是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法,进行回归分析的一般过程为:
(1) 明确预测的具体目标,确定因变量和自变量。
(2) 进行相关分析。
回归分析是对具有因果关系的影响因素(自变量) 和预测对象(因变量) 所进行的数理统计分析处理。只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,是进行回归分析必须要解决的问题。进行相关分析,一般要求出相关系数,以相关系数的大小来判断自变量和因变量的相关的程度。
(3) 建立预测模型。
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程。
(4) 计算预测误差。
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
(5) 确定预测值。
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
3.回归分析结果的评价。 (*)
对回归分析结果的评价可以从以下四个方面入手:
(1) 所估计的回归系数β₁的符号是否与理论或事先预期相一致。
(2)对于有理论支持其对因变量有显著影响的自变量,要关注统计检验结果是否显著。若理论与模型相矛盾,一方面要检验模型是否存在多重共线性等问题,一方面要对理论的正确性进行合理质疑。
(3) 用判定系数R²来回答回归模型在多大程度上解释了因变量y取值的差异。
(4) 考察关于误差项ε的正态性假定是否成立。若基本假定不成立,模型可能会存在多重共线性、异方差、内生性等问题,导致检验失效。检验ε正态性的简单方法是画出残差的散点图或正态概率图。
4.概述相关分析与回归分析的联系与区别。(*)

(1) 联系
①相关分析与回归分析具有共同的研究对象,都是研究非确定性变量间的统计依赖关系,是对变量间相关关系的分析,并能测度线性依赖程度的大小,二者可以相互补充。
②相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在相当程度的相关关系时,进行回归分析去寻求变量间相关的具体数学形式才有实际的意义。
③在进行相关分析时,如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中相关系数的确定也是建立在回归分析基础上的。
(2) 区别
①从研究目的上看
相关分析是用一定的数量指标(相关系数) 度量变量间相互联系的方向和程度,在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的。
回归分析却是要寻求变量间联系的具体数学形式,是要根据自变量的给定值去估计和预测因变量的平均值,y被称为因变量,处在被解释的特殊地位。
②从对变量的处理看
相关分析对称地对待相互联系的变量,不考虑二者的因果关系,也就是不区分自变量和因变量,相关的变量不一定具有因果关系,均视为随机变量。
回归分析是在变量因果关系分析的基础上研究其中的自变量的变动对因变量的具
体影响,必须明确划分自变量和因变量,所以回归分析中对变量的处理是不对称的,在回归分析中通常假定自变量在重复抽样中是取固定值的非随机变量,只有因变量是具有一定概率分布的随机变量。
③相关分析的研究主要是两个变量之间的线性相关程度,而回归分析不仅可以揭示x对y的影响大小,还可以建立回归方程进行数量上的预测和控制。
5.试问独立性与不相关之间的区别与联系? (*)
对于事件A和B,若P(AB)=P(A)P(B), 则称事件A和事件B相互独立,简称A与B独立。对于n个事件A₁,A₂,…Aₙ,若对于所有可能组合l≤i<…≤n,以下等式均成立

则称A₁A₂⋯An相互独立; 若只有第一个等式成立,则称A₁A₂⋯An两两独立。对于随机变量X与Y, 若 Var(X) >0, Var(Y) >0, 则称

为X与Y的相关系数, 记为ρ或ρxy。若ρxy=0,则称随机变量X与Y不相关。
两者的联系:
独立性和不相关性都是随机变量间联系“薄弱”的一种反映。若X与Y 独立,则X与Y不相关。在二维正态分布中,不相关性与独立性是等价的。
两者的区别:
两个随机变量相互独立与不相关是两个不同的概念,不相关只说明两个随机变量之间没有线性关系,但这时的X与Y 可能有某种别的函数关系;而相互独立说明两个随机变量之间没有任何关系,既没有线性关系,也没有其他关系。
6.关于一元线性回归中的相关系数、判定系数 (*)
(1) 相关系数的定义和直观意义
相关系数是测度变量之间线性相关程度的量,一般用字母r表示,由于总体相关系数一般未知,研究中常用样本相关系数代替。样本相关系数的计算公式为:

r的取值在-1到1之间,符号表示相关关系的方向,绝对值大小表示相关程度大小,r的绝对值越接近于1时,x与y之间线性相关关系越强。需要注意的是,相关系数只能用于表示线性关系,不能用于描述非线性关系,因此r=0只表示两个变量之间不存在线性相关关系,不能保证两者没有非线性相关关系,实际应用中需要结合散点图进行判断。
(2) 判定系数的定义和直观意义
判定系数,也称可决系数,是指在线性回归中,回归平方和与总离差平方和的比值,其数值等于相关系数的平方,用R²表示。它是对估计的回归方程拟合优度的度量,其计算公式为:

R²的取值范围是[0,1]。SSR表示可以用自变量解释的因变量变动,SST 表示因变量的总变动,因此R²越接近于1,用x的变化来解释y值变差的部分就越多,表明回归直线的拟合程度就越好。
(3) 相关系数和判定系数的关系。
在一元线性回归中,相关系数r实际上是判定系数的平方根,其正负符号与回归方程中回归系数的符号相同。
7.相关系数的性质和显著性检验 (*)

(1)性质
①r的取值范围在-1~+1之间, 即-1≤r≤1。若0②r具有对称性。 x与y之间的相关系数r和y与x之间的相关系数r相等,即
③r数值大小与x和y的原点及尺度无关。改变x和y的数据原点及计量尺度,并不改变r的数值大小。
④r仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能导致r=0。因此,当r=0或很小时,不能轻易得出两个变量之间不存在相关关系的结
论,而应结合散点图作出合理的解释。
⑤r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。
|r|→1 说明两个变量之间的线性关系越强;|r|→说明两个变量之间的线性关系越弱。
另外,对于一个具体的r取值,根据经验可将相关程度分为以下几种情况:
当|r| ≥0.8时, 可视为高度相关; 0.5≤|r|<0.8时, 可视为中度相关; 0.3≤|r|<0.5时,视为低度相关; 当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数的显著性进行检验的基础之上。
(2) 相关关系的显著性检验
①r的抽样分布
当总体相关系数ρ为较大的正值时,r呈现左偏布只有当ρ接近于0,而样本量n很大时,才能认为r是接近于正态分布的随机变量。
②r的显著性检验
如果对r服从正态分布的假设成立,可以应用正态分布来检验; 在通常情况下采用t分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下:
a.提出假设
H₀:ρ=0;H₁:ρ≠0
b.计算检验的统计量

c.进行决策
根据给定的显著性水平α和自由度 df=n-2,查t分布表,查出 的临界值。若 则拒绝原假设H₀,表明总体的两个变量之间存在显著的线性关系。
8.简述判定系数的含义和作用。(*)
(1)判定系数的含义判定系数是回归平方和与总离差平方和之比值,表明回归模型可以解释的变差占因变量总变差的比重,记为R²,其计算公式为:

(2) 判定系数的作用判定系数R²是用于测度回归直线对观测数据的拟合程度的一个度量值。若各观测数据(x₁,yᵢ)在坐标系上形成的散点都落在一条直线上,那么这条直线就是对数据的完全拟合,直线充分代表了各个点,此时,用x估计y是没有
误差的,残差平方和SSE=0, R²=1;如果y的变化与x无关,x完全无助于解释y的变差, 此时y=y,则 因此可得R²的取值范围是[0,1]。各观测点越是紧密围绕直线,即R²越接近于1,用x的变化来解释y值变差的部分就越多,说明直线对观测数据的拟合程度越好,判定系数越高,反之R²越接近于0,直线对观测数据的拟合程度越差,判定系数越小。
9.在回归分析中,F检验和t检验各有何作用? 及其检验步骤。

(1) F检验
F检验是检验自变量x和因变量y之间的线性关系是否显著,或者说,它们之间能否用一个线性模型 来表示,也就是线性关系的检验。
检验步骤:
①提出假设。
两个变量之间的线性关系不显著
②计算检验统计量F。

③作出决策。
确定显著性水平α,并根据分子自由度 df=1和分母自由度( 查F分布表,找到相应的临界值Fα。若F>FFα,拒绝H₀,表明两个变量之间的线性关系是显著的; 若F
(2) t检验
T检验是检验自变量对因变量的影响是否显著,也就是回归系数的检验。
检验步骤:
①提出检验。

②计算检验的统计量t。

③作出决策。
确定显著性水平α,并根据自由度 df=n-2查t分布表,找到相应的临界值 若 拒绝H₀,回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的,换言之,两个变量之间存在着显著的线性关系; 若 则不拒绝H₀,没有证据表明x对y的影响显著,或者说,二者之间尚不存在显著的线性关系。
10.回归分析中的误差序列有何基本假定? 模型参数的最小二乘估计a和b具有哪些统计特性? 若模型用于预测,影响预测精度的因素有哪些?
(1) 基本假定:
①自变量x₁,x₂,…,xₖ是非随机的、固定的,且相互之间互不相关(无多重共线性)。
②误差项ε是一个期望值为0的随机变量,即E(ε)=0。
③对于自变量x₁,x₂,…,xₖ的所有值,ε的方差σ²都相同,且不序列相关,即
④误差项ε服从正态分布且相互独立,即
(2) a和2的统计特性:
①线性,即估计量a和b为随机变量 yi的线性函数;
②无偏性,a和b分别是截距系数a和斜率系数b的无偏估计;
③有效性,a和b是所有线性无偏估计量中具有最小方差的估计量。
(3) 影响预测精度的因素:
①预测的把握度要求。同样情况下,要求预测的把握度越高,则相应的预测区间就越宽,精度越低;
②总体y分布的离散程度(σ²。σ²走越大,相应的预测区间就越宽,预测精度越低;
③样本量n。n越大,相应的预测区间就越窄,预测精度越高;
④样本观测点中,解释变量x分布的离散度。x分布越离散,预测精度越高;
⑤预测点x₀离样本分布中心x的距离。预测点越远离样本分布中心x,预测区间越宽,精度越低,越接近样本分布中心x,区间越窄,精度越高。
11.回归分析中,置信区间估计和预测区间估计有什么区别? (*)
(1) 利用估计的回归方程,对于自变量x的一个特定值,求出因变量y的一个估计值的区间就是区间估计。
区间估计有两种类型:
一是置信区间估计,它是对y的平均值的估计区间。
二是预测区间估计,它是对y的一个特定值的估计区间。
(2) 置信区间估计和预测区间估计的区别:
①估计对象不同,置信区间估计是对y的平均值的估计区间,而预测区间估计是对y的一个个别值的估计区间。
②置信区间的估计方法:

预测区间的估计方法:


由此可以看出,对同一个给定的自变量x₀,预测区间要比置信区间宽一些。
以上内容来自专辑
主播信息
用户评论

    还没有评论,快来发表第一个评论!