上一页 1 ··· 5 6 7 8 9 10 下一页
摘要: 本文简单介绍了熵、信息增益的概念,以及如何使用信息增益对监督学习的训练样本进行评估,评估每个字段的信息量。 1、熵的介绍 在信息论里面,熵是对不确定性的测量。通俗来讲,熵就是衡量随机变量随机性的指标。比如一个随机变量X的状态有{1,2,...,n},如果X取1的概率为1,其他状态为0,那么这个随机... 阅读全文
posted @ 2015-10-13 14:52 开心玩数据 阅读(1290) 评论(0) 推荐(0)
摘要: 1、业界数据挖掘方法论2、在工作中,我们进行数据挖掘实施指导方法:应用建模的八步法:业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化步骤一:业务理解 常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然... 阅读全文
posted @ 2015-10-12 13:11 开心玩数据 阅读(9982) 评论(0) 推荐(1)
摘要: 2.任务概述2.1. 目标离网分析是为了解决由于客户离网导致市场份额减少、收入降低的问题。目标是提高挽留成功率、降低离网率、减少由于客户离网带来的收入损失。因此需要对客户按照流失倾向评分,产生最可能流失客户的名单,进一步对这些目标客户进行细分,得到不同离网客户的特征,并以此为基础采取针对性的措施。客... 阅读全文
posted @ 2015-10-11 10:03 开心玩数据 阅读(3970) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2015-10-10 23:46 开心玩数据 阅读(805) 评论(0) 推荐(0)
摘要: Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic ... 阅读全文
posted @ 2015-10-10 23:31 开心玩数据 阅读(651) 评论(0) 推荐(0)
摘要: ETL应用场景中,若对端接口文件未能提供,任务会处于循环等待,直到对端提供为止,该方法极大的消耗了系统资源。为此想到了一种方法,一次获取一个平台的文件,实现思路如下: 1、第一次获取对端平台提供目录下给定日期的所有接口文件,并保存文件列表; 2、后续每隔n分钟重启获取任务,每次先获取文件列表,和上... 阅读全文
posted @ 2015-10-10 23:22 开心玩数据 阅读(749) 评论(0) 推荐(0)
摘要: BI应用中,对接口规范性约束很重要,接口文件提供需要配套提供该文件的校验文件,校验文件格式如下:序号信息内容数据类型及长度说明1接口数据文件名称CHAR(50)2文件的大小(字节数)NUMBER(20)文件的物理存储大小3文件中包含的记录数NUMBER(20)4数据日期CHAR(10)如果抽取周期... 阅读全文
posted @ 2015-10-10 23:02 开心玩数据 阅读(1412) 评论(0) 推荐(0)
摘要: /************************************************ 函数功能 :***** 抽取数据库记录*************************************************/int extract_data(char *ef... 阅读全文
posted @ 2015-10-10 22:48 开心玩数据 阅读(434) 评论(0) 推荐(0)
摘要: hadoop fs -ls /列出目录及文件信息hadoop fs -lsr /循环列出目录、子目录及文件信息hadoop fs -put test.txt /user/sunlightcs将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下hadoop f... 阅读全文
posted @ 2015-10-10 22:45 开心玩数据 阅读(428) 评论(0) 推荐(0)
摘要: ETL处理过程中,经常需要进行文件校验,如文件级校验、记录级校验,需要保存文件的基本信息,文件名、文件大小、数据日期等,使用Pro*C的一种方法如下:#include #include #include #include #include #include #include #include #in... 阅读全文
posted @ 2015-10-10 22:43 开心玩数据 阅读(389) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 下一页