随笔分类 -  机器学习

摘要:t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, 1876-1937)所提出,student则是他的笔名。t检验是一种检验总体均值的统计方法,当数据中仅含单组样本且样本数较大时(通常样本个数≧30的样本可视为样本数较大),可用这种方法来 阅读全文
posted @ 2016-03-14 21:06 开心玩数据 阅读(10978) 评论(0) 推荐(0)
摘要:网络,数学上称为图,最早研究始于1736年欧拉的哥尼斯堡七桥问题,但是之后关于图的研究发展缓慢,直到1936年,才有了第一本关于图论研究的著作。20世纪60年代,两位匈牙利数学家Erdos和Renyi建立了随机图理论,被公认为是在数学上开创了复杂网络理论的系统性研究。之后的40年里,人们一直讲随机图 阅读全文
posted @ 2016-03-14 21:03 开心玩数据 阅读(27710) 评论(1) 推荐(2)
摘要:1,text1.concordance("monstrous")      用语索引 阅读全文
posted @ 2016-03-14 21:01 开心玩数据 阅读(2872) 评论(0) 推荐(0)
摘要:基于实例的学习方法中,最近邻法和局部加权回归法用于逼近实值或离散目标函数,基于案例的推理已经被应用到很多任务中,比如,在咨询台上存储和复用过去的经验;根据以前的法律案件进行推理;通过复用以前求解的问题的相关部分来解决复杂的调度问题。基于实例方法的一个不足是,分类新实例的开销可能很大。这是因为几乎所... 阅读全文
posted @ 2015-11-10 20:40 开心玩数据 阅读(474) 评论(0) 推荐(0)
摘要:本文简单介绍了熵、信息增益的概念,以及如何使用信息增益对监督学习的训练样本进行评估,评估每个字段的信息量。 1、熵的介绍 在信息论里面,熵是对不确定性的测量。通俗来讲,熵就是衡量随机变量随机性的指标。比如一个随机变量X的状态有{1,2,...,n},如果X取1的概率为1,其他状态为0,那么这个随机... 阅读全文
posted @ 2015-10-13 14:52 开心玩数据 阅读(1290) 评论(0) 推荐(0)
摘要:1、业界数据挖掘方法论2、在工作中,我们进行数据挖掘实施指导方法:应用建模的八步法:业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化步骤一:业务理解 常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然... 阅读全文
posted @ 2015-10-12 13:11 开心玩数据 阅读(9982) 评论(0) 推荐(1)
摘要:2.任务概述2.1. 目标离网分析是为了解决由于客户离网导致市场份额减少、收入降低的问题。目标是提高挽留成功率、降低离网率、减少由于客户离网带来的收入损失。因此需要对客户按照流失倾向评分,产生最可能流失客户的名单,进一步对这些目标客户进行细分,得到不同离网客户的特征,并以此为基础采取针对性的措施。客... 阅读全文
posted @ 2015-10-11 10:03 开心玩数据 阅读(3970) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2015-10-10 23:46 开心玩数据 阅读(805) 评论(0) 推荐(0)
摘要:Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic ... 阅读全文
posted @ 2015-10-10 23:31 开心玩数据 阅读(651) 评论(0) 推荐(0)