2020年1月14日

k means || on hadoop

摘要: k means 是经典的聚类算法,这里不详细介绍。而初始化的kmeans的效果及收敛时间极端依赖初始化的K个点,对此有改进的算法k means ++ ,但是由于其实现过程不能并行对于大数据集的聚类显得有点势单力薄。对此,斯坦福提出了K means || 做出改进,详细证明内容请参考文献1。k-mea 阅读全文

posted @ 2020-01-14 14:19 londist 阅读(194) 评论(0) 推荐(0)

2019年5月23日

社区发现

摘要: 这是一次课程作业,实现有点粗糙。有更好的方案,欢迎交流。 我们需要评估每两个用户之间的相似度,以此来发现社区。现在我们以每对用户的共同关注人数量作为评估标准。 原始数据格式: 关注人_id:粉丝_1_id 粉丝_2_id 希望得到的输出格式是 用户_id:相似的人_1_id 相似的人_2_id 使用 阅读全文

posted @ 2019-05-23 19:54 londist 阅读(265) 评论(0) 推荐(0)

导航