上一页 1 2 3 4 5 6 7 8 ··· 16 下一页
摘要: 1、 查看数值数据的整体分布情况 datafram.describe() 输出: agecount 1463.000000mean 22.948052std 8.385384min 13.00000025% 17.00000050% 20.00000075% 27.000000max 64.0000 阅读全文
posted @ 2018-06-11 11:43 Earendil 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 占个坑 阅读全文
posted @ 2018-06-08 18:35 Earendil 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 有时候需要将hive库中的部分数据导入至本地,这样子做可视化和小规模的数据挖掘实验都是比较方便的。数据导入至本地的HQL语法如下: INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1;但是hive对字段分隔时默认使用的分隔符 阅读全文
posted @ 2018-06-08 18:32 Earendil 阅读(2942) 评论(0) 推荐(0) 编辑
摘要: SGD:现在的SGD一般都指mini-batch gradient descent 最小批量梯度下降 缺点:(正因为有这些缺点才让这么多大神发展出了后续的各种算法) 选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征,有时我们 阅读全文
posted @ 2018-04-23 09:11 Earendil 阅读(700) 评论(0) 推荐(0) 编辑
摘要: ALS算法描述: 1、ALS算法用来补全用户评分矩阵。由于用户评分矩阵比较稀疏,将用户评分矩阵进行分解,变成V和U的乘积。通过求得V和U两个小的矩阵来补全用户评分矩阵。 2、ALS算法使用交替最小二乘法来进行求解。 3、ALS分为显示反馈和隐式反馈两种。显示反馈是指用户有明确的评分。对于商品推荐来说 阅读全文
posted @ 2018-04-18 10:35 Earendil 阅读(2074) 评论(0) 推荐(0) 编辑
摘要: Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。 Bagging: 先介绍Bagging方法: Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping 阅读全文
posted @ 2018-04-18 09:22 Earendil 阅读(88846) 评论(1) 推荐(4) 编辑
摘要: ROC曲线: roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 ROC曲线的横轴: 负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specifi 阅读全文
posted @ 2018-04-17 15:49 Earendil 阅读(1060) 评论(0) 推荐(0) 编辑
摘要: 面试时被问到spark RDD的宽窄依赖,虽然问题很简单,但是答得很不好。还是应该整理一下描述,这样面试才能答得更好。 看到一篇很好的文章,转载过来了。感觉比《spark技术内幕》这本书讲的好多了。 原文链接:https://www.jianshu.com/p/5c2301dfa360 1.窄依赖 阅读全文
posted @ 2018-04-17 10:05 Earendil 阅读(3225) 评论(0) 推荐(0) 编辑
摘要: 先介绍tf idf 在一份给定的文件里,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语来 阅读全文
posted @ 2018-04-10 17:38 Earendil 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 背景: 我遇到一个问题,要计算140万商品的杰卡德相似度。如果直接要直接两两计算的话,这计算量根本算不了,而且也没必要。 分析: 在这些商品中很多商品的相似度并不高,也就是说其中达到相似度阈值的商品只占这些商品组合的一小部分。针对这种情况,首先想到的是按照类别,或者商品品牌进行计算,只计算同类别或者 阅读全文
posted @ 2018-04-10 15:33 Earendil 阅读(370) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 16 下一页