上一页 1 2 3 4 5 6 7 8 9 ··· 40 下一页
摘要: 经过2节对MovieLens数据集的学习,想必读者对MovieLens数据集认识的不错了;同时也顺带回顾了些Spark编程技巧,Python数据分析技巧。 而本节将是让人兴奋的一节,它将实现一个基于Spark的推荐系统引擎。 阅读全文
posted @ 2017-05-20 16:40 穆晨 阅读(21037) 评论(0) 推荐(5) 编辑
摘要: 在对数据进行了初步探索后,想必读者对MovieLens数据集有了感性认识。而在数据挖掘/推荐引擎运行前,往往需要对数据预处理。预处理的重要性不言而喻,甚至比数据挖掘/推荐系统本身还重要。 然而完整的数据预处理工作会涉及到:缺失值,异常值,口径统一,去重,特征提取等等等等,可以单写一本书了,本文无法一一介绍。 本文仅就特征提取这一话题进行粗略讨论并展示。 阅读全文
posted @ 2017-05-20 16:39 穆晨 阅读(5564) 评论(0) 推荐(0) 编辑
摘要: MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。 这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。 阅读全文
posted @ 2017-05-20 12:29 穆晨 阅读(13341) 评论(2) 推荐(4) 编辑
摘要: 对于Hadoop集群来说,节点损坏是非常常见的现象。 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行。 下面就来分析Hadoop平台是如何做到的。 阅读全文
posted @ 2017-05-20 11:12 穆晨 阅读(794) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 40 下一页