驯龙高手 - 博客园

[置顶] 基础公式

摘要：均值：方差：标准偏差（总体标准偏差）：栗子：某班级平均身高 M=170cm，方差为 100cm，标准差为10cm，班级身高范围 170±10 cm。样本标准偏差：协方差：衡量两个变量(如 X与Y)的总体误差（方差是协方差的一种特殊情况）一个变量跟随着另一个变量同时变大或者变小，则两个变量阅读全文

posted @ 2018-01-26 23:06 驯龙高手阅读(262) 评论(0) 推荐(0) 编辑

2018年2月6日

决策树构建

摘要：信息熵：生活中的所见所闻，都接触到许许多多的信息，有的信息对我们有用，有的无用。如 “地球是自转的”，这条信息对我们没什么用，因为我们都知道，而且是确确实实是这样的。香农用信息熵的概念来描述信源的不确定度，变量的不确定性越大，熵也就越大。在某个事件中，如果不发生的概率为0，那么可以确定信息熵为0 阅读全文

posted @ 2018-02-06 18:29 驯龙高手阅读(303) 评论(0) 推荐(0) 编辑

2018年1月31日

Python 普通最小二乘法（OLS）进行多项式拟合

摘要：多元函数拟合。如电视机和收音机价格多销售额的影响，此时自变量有两个。 python 解法：拟合的各项评估结果和参数都打印出来了，其中结果函数为： f(sales) = β0 + β1*[TV] + β2*[radio] f(sales) = 2.9211 + 0.0458 * [TV] + 0. 阅读全文

posted @ 2018-01-31 18:27 驯龙高手阅读(10285) 评论(0) 推荐(0) 编辑

Python 确定多项式拟合/回归的阶数

摘要：通过 1至10 阶来拟合对比均方误差及R评分，可以确定最优的“最大阶数”。因为因变量 Y = 2*(X**4) + X**2 + 9*X + 2 ，自变量和因变量是完整的公式，看图很明显，degree >=4 的都符合，拟合函数都正确。（RMSE 最小，R平方非负且接近于1，则模型最好）如果将阅读全文

posted @ 2018-01-31 12:21 驯龙高手阅读(6219) 评论(0) 推荐(1) 编辑

2018年1月29日

Python 绘图常用参数设置

摘要： import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib.patches as mpatches from scipy.interpolate import spline x = np.arange(-5,11) y = x**3 + 2*(x**2) + x + 2 y2... 阅读全文

posted @ 2018-01-29 15:18 驯龙高手阅读(12663) 评论(0) 推荐(0) 编辑

2018年1月26日

Python 多项式拟合（一元回归）

摘要：一元一阶线性拟合：假设存在一条线性函数尽量能满足所有的点：y=ax+b .对所有点的的公式为：残差值β = 实际值y - 估计值y，β 应尽量小，当 β = 0 时，则完全符合一元线性方程：y=ax+b 通过最小二乘法计算残差和最小：根据微积分，当 Q 对 a、b 的一阶偏导数为了0时，Q 达阅读全文

posted @ 2018-01-26 13:50 驯龙高手阅读(27145) 评论(1) 推荐(3) 编辑

2018年1月14日

WOE、VI 分类变量预测能力

摘要：原始数据，如按年龄离散化。首先元素各值频数的分布。 WOE（Weight of Evidence）反映了自变量对因变量的预测能力。 IV（Information Value）在预测模型中选择最重要的变量是最有用的技术之一。用于根据变量的重要性排列变量。简化：结果： IV 值经验规则： IV < 阅读全文

posted @ 2018-01-14 18:22 驯龙高手阅读(794) 评论(0) 推荐(0) 编辑

Python 卡方检验、克雷姆值

摘要：卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。（更多参考：卡方检验、卡方分布）不讲过多理论，主要使用 python 实现卡方验证。之前阅读全文

posted @ 2018-01-14 08:56 驯龙高手阅读(1726) 评论(0) 推荐(0) 编辑

2018年1月13日

概率论——随机变量及其分布

摘要：【随机变量】设随机实验的样本空间是 S=|e| ，X = X(e) 是定义在样本空间S上的实值单值函数，称 X = X(e) 为随机变量。【概率分布率】设随机变量 X ，其所有可能去的不同值为：取各个值的可能的概率分别为：即：若该公式满足以下条件，则称为随机变量X的概率分布率，简称分布率阅读全文

posted @ 2018-01-13 18:49 驯龙高手阅读(1700) 评论(0) 推荐(0) 编辑

概率论——随机事件及其概率

摘要：概率论——随机事件及其概率阅读全文

posted @ 2018-01-13 00:31 驯龙高手阅读(1179) 评论(0) 推荐(0) 编辑

KK——数据分析

http://blog.csdn.net/kk185800961

公告