03 2016 档案

摘要:k折交叉验证 验证损失函数对模型好坏的评价 由图可以得知,平均方差越低越好,因此选择13~18左右的K值会最好。 阅读全文
posted @ 2016-03-30 17:06 xmeo 阅读(426) 评论(0) 推荐(0)
摘要:特征工程: 一.数据处理 1.数据收集 埋点,mysql,hdfs,日志等收集。 2.数据清洗 a.不符合常理数据 b.超出统计值的数据 c.缺省值极多的字段 3.数据采样 (1)正样本大于负样本,且相差很大 下采样(截取与负样本量相近的正样本) (2)正样本大于负样本,相差不大 a.采集跟多数据 阅读全文
posted @ 2016-03-27 11:17 xmeo 阅读(376) 评论(0) 推荐(0)
摘要:密度聚类 密度聚类方法的指导思想是,只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中去。这类算法优点在于可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度大,需要建立空间索引来降低计算量。 这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之 阅读全文
posted @ 2016-03-16 20:51 xmeo 阅读(1131) 评论(0) 推荐(0)
摘要:聚类 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小. 数据聚类算法可以分为结构性或者分散性,许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。 1.分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从 阅读全文
posted @ 2016-03-08 15:22 xmeo 阅读(19173) 评论(1) 推荐(0)