机器学习 - 随笔分类(第2页) - 开心玩数据

基于R语言的数据分析和挖掘方法总结——均值检验

摘要：t检验，又称学生t(student t)检验，是由英国统计学家戈斯特(William Sealy Gosset, 1876-1937)所提出,student则是他的笔名。t检验是一种检验总体均值的统计方法，当数据中仅含单组样本且样本数较大时(通常样本个数≧30的样本可视为样本数较大)，可用这种方法来阅读全文

posted @ 2016-03-14 21:06 开心玩数据阅读(10978) 评论(0) 推荐(0)

复杂网络中聚类算法总结

摘要：网络，数学上称为图，最早研究始于1736年欧拉的哥尼斯堡七桥问题，但是之后关于图的研究发展缓慢，直到1936年，才有了第一本关于图论研究的著作。20世纪60年代，两位匈牙利数学家Erdos和Renyi建立了随机图理论，被公认为是在数学上开创了复杂网络理论的系统性研究。之后的40年里，人们一直讲随机图阅读全文

posted @ 2016-03-14 21:03 开心玩数据阅读(27710) 评论(1) 推荐(2)

Python自然语言处理-系列一

摘要：1，text1.concordance("monstrous") 用语索引阅读全文

posted @ 2016-03-14 21:01 开心玩数据阅读(2872) 评论(0) 推荐(0)

机器学习算法之:KNN

摘要：基于实例的学习方法中，最近邻法和局部加权回归法用于逼近实值或离散目标函数，基于案例的推理已经被应用到很多任务中，比如，在咨询台上存储和复用过去的经验；根据以前的法律案件进行推理；通过复用以前求解的问题的相关部分来解决复杂的调度问题。基于实例方法的一个不足是，分类新实例的开销可能很大。这是因为几乎所... 阅读全文

posted @ 2015-11-10 20:40 开心玩数据阅读(474) 评论(0) 推荐(0)

基于IG的特征评分方法

摘要：本文简单介绍了熵、信息增益的概念，以及如何使用信息增益对监督学习的训练样本进行评估，评估每个字段的信息量。 1、熵的介绍在信息论里面，熵是对不确定性的测量。通俗来讲，熵就是衡量随机变量随机性的指标。比如一个随机变量X的状态有{1,2,...,n},如果X取1的概率为1，其他状态为0，那么这个随机... 阅读全文

posted @ 2015-10-13 14:52 开心玩数据阅读(1290) 评论(0) 推荐(0)

数据挖掘方法论及实施步骤

摘要：1、业界数据挖掘方法论2、在工作中，我们进行数据挖掘实施指导方法：应用建模的八步法：业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化步骤一：业务理解常见的误区：很多人以为不需要事先确定问题和目标，只要对数据使用数据挖掘技术，然后再对分析挖掘后的结果进行寻找和解释，自然... 阅读全文

posted @ 2015-10-12 13:11 开心玩数据阅读(9982) 评论(0) 推荐(1)

数据挖掘应用之：电信业离网预警建模过程

摘要：2.任务概述2.1. 目标离网分析是为了解决由于客户离网导致市场份额减少、收入降低的问题。目标是提高挽留成功率、降低离网率、减少由于客户离网带来的收入损失。因此需要对客户按照流失倾向评分，产生最可能流失客户的名单，进一步对这些目标客户进行细分，得到不同离网客户的特征，并以此为基础采取针对性的措施。客... 阅读全文

posted @ 2015-10-11 10:03 开心玩数据阅读(3970) 评论(0) 推荐(0)

个人整理的机器学习中相似度方法及对比

摘要：阅读全文

posted @ 2015-10-10 23:46 开心玩数据阅读(805) 评论(0) 推荐(0)

常用的机器学习&数据挖掘知识点

摘要：Basis(基础)：MSE(Mean Square Error 均方误差)，LMS(LeastMean Square 最小均方)，LSM(Least Square Methods 最小二乘法)，MLE(MaximumLikelihood Estimation最大似然估计)，QP(Quadratic ... 阅读全文

posted @ 2015-10-10 23:31 开心玩数据阅读(651) 评论(0) 推荐(0)

tychyg's Blog

开心玩数据,专注于大数据、BI

随笔分类 - 机器学习

公告