摘要:对于平稳时间序列,可以建立趋势模型。当有理由相信这种趋势能够延伸到未来时,赋予变量t所需要的值,可以得到相应时刻的时间序列未来值,这就是趋势外推法 【分析实例】 根据1992-2005年的人口出生率的数据,使用最小二乘法确定直线趋势方程, 1) 并计算各期的预测值和预测误差2) 预测2007年的人口
阅读全文
摘要:单因素方差分析(One-Way Analysis of Variance) 判断控制变量是否对观测变量产生了显著影响 分析步骤 1. 建立检验假设 - H0:不同因子水平间的均值无差异 - H1:不同因子水平间的均值有显著差异 - 【注意】有差异,有可能是所有因子水平间都存在差异,也有可能只有两个因
阅读全文
摘要:二项分布(Binomial Distribution)对Bernoulli试验序列的n次序列,结局A出现的次数x的概率分布服从二项分布- 两分类变量并非一定会服从二项分布- 模拟伯努利试验中n次独立的重复,每次试验成功的概率为pi 特征值 - 均值(数学期望)和方差: - 不同的值,二项式分布有着不
阅读全文
摘要:众数:出现频数最多的变量值,适用于描述具有较多个值的变量,且变量值的分布有明显集中趋势的情况
阅读全文
摘要:1. t分布形状类似于标准正态分布2. t分布是对称分布,较正态分布离散度强,密度曲线较标准正态分布密度曲线更扁平3. 对于大型样本,t-值与z-值之间的差别很小 作用- t分布纠正了未知的真实标准差的不确定性- t分布明确解释了估计总体方差时样本容量的影响,是适合任何样本容量都可以使用的合适分布
阅读全文
摘要:正态分布(Normal Distribution) 1、正态分布是一种连续分布,其函数可以在实线上的任何地方取值。 2、正态分布由两个参数描述:分布的平均值μ和方差σ2 。 3、正态分布的取值可以从负无穷到正无穷。 3、Z-score 是非标准正态分布标准化后的x 即 z = (x−μ) / σ #
阅读全文
摘要:散点图进阶,结合箱体图与直方图对数据形成全面的认识 描述数据集中趋势的分析量: 均值 - 全部数据的算术平均值 众数 - 一组数据中出现次数最多的变量值 中位数 - 一组数据经过顺序排列后处于中间位置上的变量值 描述数据离散程度的分析量: 方差 - 一组数据各变量值与其平均值离差平方和的平均数 标准
阅读全文
摘要:# 运用散点图对数据分布得到直观的认识 1 import numpy as np 2 import matplotlib.pyplot as plt 3 4 # 设计 x, y 轴 5 n = 10000 6 x = np.random.randn( n ) # 随机值 7 y = np.rando
阅读全文