回归是一种统计方法,可让我们了解自变量和因变量之间的关系。
逐步回归是回归分析中一种筛选变量的过程,我们可以使用逐步回归从一组候选变量中构建回归模型,让系统自动识别出有影响的变量。
理论说明
逐步回归,是通过逐步将自变量输入模型,如果模型具统计学意义,并将其纳入在回归模型中。同时移出不具有统计学意义的变量。最终得到一个自动拟合的回归模型。其本质上还是线性回归。
一、研究背景
研究人员针对血压与年龄,体重,体表面积,持续时间,脉搏率、压力水平之间是否存在关系进行研究。
二、操作步骤
首先,可以分别对变量做相关分析或散点图,初步了解各自变量X与因变量Y的关系。
登录SPSSAU,选择【通用方法】--【相关】或【可视化】--【散点图】。
相关分析
从相关分析结果看,年龄、体重、体表面积、脉搏频率与血压有显著的正相关关系。
然后,再利用逐步回归进行分析。选择【进阶方法】--【逐步回归】。
进阶方法-逐步回归
逐步回归
逐步回归
逐步回归分析仅在回归分析的基础上,加入了一项功能,即自动化移除掉不显著的X,通常逐步回归分析用于探索研究中。
指标说明
在分析时,可首先对模型情况进行分析,然后分析X的显著性,并判断X对Y的影响关系大小及方向。
根据回归结果显示,最终模型共包含年龄、体重、体表面积共3个自变量。R方值为0.995,意味着年龄,体重,体表面积可以解释血压的99.5%变化原因,说明模型构建较好。
最终具体分析可知:
年龄的回归系数值为0.702(t=15.961,p=0.000<0.01),意味着年龄会对血压产生显著的正向影响关系。
体重的回归系数值为0.906(t=18.490,p=0.000<0.01),意味着体重会对血压产生显著的正向影响关系。
体表面积的回归系数值为4.627(t=3.042,p=0.008<0.01),意味着体表面积会对血压产生显著的正向影响关系。
总结分析可知:年龄, 体重, 体表面积会对血压产生显著的正向影响关系。
三、其他说明
逐步回归虽然是很好的选择自变量的方法,但同时这种方法也存在一些缺陷:
首先,该方法按一定顺序添加或删除变量,所以最终会得到由该顺序确定的自变量组合,由系统自动判断哪些变量应该保留,哪些需要移除,可能会出现核心研究变量被移除的情况。
其次,如果逐步回归结果会收到样本量的影响,一般需要适当的大样本才能获得较为可靠的分析结果。