变量间关系•R.A.(Regression Analysis)·Linear+Logistic•LSE:最小二乘估计
R.A.定义:
R.A.(回归分析)是一种统计学方法:
用于研究变量间的关系,特别是确定一个或多个自变量与一个因变量之间的定量关系。
R.A. 不仅揭示变量间的关系,还能进行预测和假设检验。
类型Linear+Logistic
主要类型包括Linear R.A. 和Logistic R.A.:
- Linear R.A.(线性回归) 适用于定量数据,用于预测和分析连续变量之间的关系。
关键步骤包括F检验(验证模型整体显著性)、R²(模型拟合优度,值越大越好)、VIF(检查多重共线性,应小于10,理想小于5)以及p值(判断变量影响的显著性)。 - Logistic R.A.()逻辑回归) 用于分类数据,特别是二元分类(如0和1)或多分类问题,研究变量间的非线性关系,常用于预测事件发生的概率。
建模
建模时,需考虑变量的类型(内生与外生)、控制变量,并通过理论建模或实证建模来估计参数。
变量间常见的关系有两类:
- 确定性关系:变量间的关系是完全确定的,可用函数 y=ƒ(x) 来表示,x(可以是向量)给定后, y的值就唯一确定了。譬如正方形的面积 S 与边长a之间有确定性关系: S=a2, 电路上有欧姆定律 V=IR等.
- 相关关系:变量间有关系,但是不能用函数来表示. 譬如人的身高 h 和体重 w 两者间有相关关系, 一般身高 h 较高的人体重 w 也较重, 但是同身高的人的体重可以是不同的, 医学上就利用 身高h和体重w的相关关系,给出一些“经验公式”来确定一个人的是否过于“胖瘦”和“高矮”;人的 脚掌长度 θ 与 身高 h 也有相关关系。
Regression Analysis研究“变量与变量之间相关关系:尽管不能用完全确定的函数形式表示,但是在平均意义上有一定的定量关系表达式。回归分析的主要任务就是寻找这种在平均意义上的一定的定量关系表达式
回归函数的估计:Regression Analysis通过对客观事物中变量的大量观察或试验获得的数据,寻找隐藏在(Quantitative定量与现象)数据幕后的相关关系表达形式(Quanlitative定性law规律)
Regression Model
设 y 与 x 间有相关关系,称 x 为自变量(预报变量),y为因变量(相应变量),在给定 x 的取值后,y的取值并不是固定的,y是一个随机变量,有其分布。
给定的自变量及其值为条件时,因变量是随机变量有其分布及特征数包括均值,而且因变量的均值与自变量的值有确定性的关系即可用函数表示, 这便是y关于x的回归函数Regression Function, 也就是我们要寻找的相关关系的表达式。
常见的Regression Model有两种:
- 第一种是 x自变量是随机变量(定义域是随机事件集合), y因变量也是随机变量 的场合,
y因变量的分布是在给定的自变量 条件X 及其 条件值x后,Y的条件密度函数Ρ(y|x),我们关心的是因变量y的均值Ε(Y|x), 他是因变量 x 的函数,这个函数是“确定性的”:
,他们间关系可用表达式: ƒ(x) = E(Y|x) = ∫y•p(y|x) dy 表示, 即 y关于 x的Regression Function回归函数,在 x自变量和 y因变量均为随机变量时也可称为Conditional Expectation条件期望; - 第二种是 x自变量是可控变量(定义域是连续实数集合), 只有 y因变量是随机变量,他们间关系可用表达式: y =ƒ(x) + ε 表达,其中ε是随机误差,常假设 ε∼N(0, σ2) 由于ε的随机性导致y成为随机变量,
N(μ, σ2):, μ是均值, σ是标准差的Normal Distribution正态分布。
ε∼N(0, σ2): “ε满足均值为0,方差为σ2或标准差为σ的Normal Distribution”
进行Regression Analysis,首先是Form selection of Regression Function回归函数形式的选择.
Regression Analysis实例: 英国🇬🇧生物学家兼统计学家Galton的父子身高遗传研究:
Galton 观察了1078对父子,用x表示父亲身高, y表示成年儿子的身高, 发现将(x,y)画在直角坐标系中, 这1078个点基本在一条直线附件, 并求出该直线的方程(单位:inch):
ȳ = 33.73 + 0.516•x (slope=0.516)
这表明:
- 父亲身高每增加一个单位,其儿子身高平均增加0.516个单位;(slope > 0)
- 父辈身高越高其子辈平均身高也高, 但子辈身高的差距低于父辈间的身高差距.(slope < 1)
同时我们可总结得Single Variable Regression Analysis(一元变量回归分析)的方法之一:通常可采用“画散点图”的方法

浙公网安备 33010602011771号