摘要: 多重共线性的概念:模型解释变量之间存在完全线性相关或不完全线性相关关系产生的原因:(1)特征变量之间的内在联系(2)特征变量在时间上有同方向变动的趋势(3)某些变量的滞后检验的方法:(1)相关性分析(2) 方差膨胀因子 ​方差膨胀因子(Variance Inflation Factor,VIF... 阅读全文
posted @ 2015-06-12 16:09 小明_数据 阅读(2282) 评论(0) 推荐(0) 编辑
摘要: 特征选取是机器学习领域非常重要的一个方向。主要有两个功能:(1)减少特征数量、降维,使模型泛化能力更强,减少过拟合(2)增强度特征和特征值之间的理解几种常用的特征选取方法一、去掉取值变化小的特征考察某个特征下,样本的方差值,可以人为给定一个阈值,抛开那些小于这个阈值的特征。二、单变量特征选择单变量特... 阅读全文
posted @ 2015-06-11 16:23 小明_数据 阅读(6842) 评论(0) 推荐(0) 编辑
摘要: dijskstra最短路径算法步骤:输入:图G=(V(G),E(G))有一个源顶点S和一个汇顶点t,以及对所有的边ij属于E(G)的非负边长出cij。输出:G从s到t的最短路径的长度。第0步:从对每个顶点做临时标记L开始,做法如下:L(s)=0,且对除s外所有的顶点L(i)=∞。第1步:找带有最小临... 阅读全文
posted @ 2015-04-22 11:09 小明_数据 阅读(10535) 评论(1) 推荐(0) 编辑
摘要: 时间2015-01-29 14:14:11数盟原文http://dataunion.org/?p=9805译者:Allen从Python菜鸟到Python Kaggler的旅程(译注:Kaggle是一个数据建模和数据分析竞赛平台)假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那... 阅读全文
posted @ 2015-04-15 14:02 小明_数据 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 开通博客已久,想了好久决定写个基础的安装教程,望后人少走弯路,也借此希望跟大家多多交流。文中给出的链接默认是基于对python2.7的前提下的包。1.首先下载64位Python包,进行安装(默认python2.7.6)下载链接:https://www.baidu.com/link?url=i1EA5... 阅读全文
posted @ 2015-04-13 20:44 小明_数据 阅读(574) 评论(0) 推荐(0) 编辑