随笔分类 -  scikit-learn

摘要:现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取。 1、分类变量的特征提取 比如城市作为一个特征,那么就是一系列散列的城市标记,这类特征我们用二进制编码来表示,是这个城市为1,不是这个城市为0 比如有三个城市:北京 阅读全文
posted @ 2017-03-13 14:13 志者之梦 阅读(728) 评论(0) 推荐(0)
摘要:1、综述 scikit-learn的线性回归模型都是通过最小化成本函数来计算参数的,通过矩阵乘法和求逆运算来计算参数。当变量很多的时候计算量会非常大,因此我们改用梯度下降法,批量梯度下降法每次迭代都用所有样本,快速收敛但性能不高,随机梯度下降法每次用一个样本调整参数,逐渐逼近,效率高,本节我们来利用 阅读全文
posted @ 2017-03-13 12:11 志者之梦 阅读(1491) 评论(0) 推荐(0)
摘要:撰写日期:2017-03-12 多元真实情况未必是线性的,有时需要增加指数项,也就是多项式回归,现实世界的曲线关系都是通过增加多项式实现的,本节介绍用scikit-learn解决多项式回归问题。 1、住房价格成本 样本 面积(平方米) 价格(万元) 2、绘图 1 import sys 2 reloa 阅读全文
posted @ 2017-03-12 07:48 志者之梦 阅读(628) 评论(0) 推荐(0)
摘要:一般情况下,一个因变量是和多个自变量有关的,比如一个商品的价格和原料价格、加工方法、上市时间、品牌价值等有关,也就是多元线性,本节介绍如何用scikit-learn解决多元线性回归问题。 1、多元线性回归模型 方程:Y=Xβ 求解多元线性回归问题就是求解β: 因为X不一定是方阵,所以不能直接β=X- 阅读全文
posted @ 2017-03-12 07:40 志者之梦 阅读(749) 评论(0) 推荐(0)
摘要:1、概念 一元线性回归是最简单的一种模型,但应用广泛,比如简单地预测商品价格、成本评估等,都可以用一元线性模型,本节主要讲解scikit-learn一元线性回归的使用以及作图说明。 y=f(x)叫做一元函数,回归的意思就是根据已知数据复原某些值,线性回归(regression)就是用线性的模型做回归 阅读全文
posted @ 2017-03-11 22:04 志者之梦 阅读(1427) 评论(0) 推荐(0)