会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
tychyg's Blog
开心玩数据,专注于大数据、BI
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
下一页
2015年10月13日
基于IG的特征评分方法
摘要: 本文简单介绍了熵、信息增益的概念,以及如何使用信息增益对监督学习的训练样本进行评估,评估每个字段的信息量。 1、熵的介绍 在信息论里面,熵是对不确定性的测量。通俗来讲,熵就是衡量随机变量随机性的指标。比如一个随机变量X的状态有{1,2,...,n},如果X取1的概率为1,其他状态为0,那么这个随机...
阅读全文
posted @ 2015-10-13 14:52 开心玩数据
阅读(1290)
评论(0)
推荐(0)
2015年10月12日
数据挖掘方法论及实施步骤
摘要: 1、业界数据挖掘方法论2、在工作中,我们进行数据挖掘实施指导方法:应用建模的八步法:业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化步骤一:业务理解 常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然...
阅读全文
posted @ 2015-10-12 13:11 开心玩数据
阅读(9982)
评论(0)
推荐(1)
2015年10月11日
数据挖掘应用之:电信业离网预警建模过程
摘要: 2.任务概述2.1. 目标离网分析是为了解决由于客户离网导致市场份额减少、收入降低的问题。目标是提高挽留成功率、降低离网率、减少由于客户离网带来的收入损失。因此需要对客户按照流失倾向评分,产生最可能流失客户的名单,进一步对这些目标客户进行细分,得到不同离网客户的特征,并以此为基础采取针对性的措施。客...
阅读全文
posted @ 2015-10-11 10:03 开心玩数据
阅读(3970)
评论(0)
推荐(0)
2015年10月10日
个人整理的机器学习中相似度方法及对比
摘要:
阅读全文
posted @ 2015-10-10 23:46 开心玩数据
阅读(805)
评论(0)
推荐(0)
常用的机器学习&数据挖掘知识点
摘要: Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic ...
阅读全文
posted @ 2015-10-10 23:31 开心玩数据
阅读(651)
评论(0)
推荐(0)
ETL应用:一种一次获取一个平台接口文件的方法
摘要: ETL应用场景中,若对端接口文件未能提供,任务会处于循环等待,直到对端提供为止,该方法极大的消耗了系统资源。为此想到了一种方法,一次获取一个平台的文件,实现思路如下: 1、第一次获取对端平台提供目录下给定日期的所有接口文件,并保存文件列表; 2、后续每隔n分钟重启获取任务,每次先获取文件列表,和上...
阅读全文
posted @ 2015-10-10 23:22 开心玩数据
阅读(749)
评论(0)
推荐(0)
ETL应用:使用shell实现文件级校验的方法
摘要: BI应用中,对接口规范性约束很重要,接口文件提供需要配套提供该文件的校验文件,校验文件格式如下:序号信息内容数据类型及长度说明1接口数据文件名称CHAR(50)2文件的大小(字节数)NUMBER(20)文件的物理存储大小3文件中包含的记录数NUMBER(20)4数据日期CHAR(10)如果抽取周期...
阅读全文
posted @ 2015-10-10 23:02 开心玩数据
阅读(1412)
评论(0)
推荐(0)
ETL应用:使用Pro*C实现文件抽取的方法
摘要: /************************************************ 函数功能 :***** 抽取数据库记录*************************************************/int extract_data(char *ef...
阅读全文
posted @ 2015-10-10 22:48 开心玩数据
阅读(434)
评论(0)
推荐(0)
hadoop基本命令
摘要: hadoop fs -ls /列出目录及文件信息hadoop fs -lsr /循环列出目录、子目录及文件信息hadoop fs -put test.txt /user/sunlightcs将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下hadoop f...
阅读全文
posted @ 2015-10-10 22:45 开心玩数据
阅读(428)
评论(0)
推荐(0)
ETL应用:使用Pro*C写入文件信息入库的方法
摘要: ETL处理过程中,经常需要进行文件校验,如文件级校验、记录级校验,需要保存文件的基本信息,文件名、文件大小、数据日期等,使用Pro*C的一种方法如下:#include #include #include #include #include #include #include #include #in...
阅读全文
posted @ 2015-10-10 22:43 开心玩数据
阅读(389)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
下一页
公告