数据挖掘 - 随笔分类 - 志青云集

数据挖掘之权重计算（PageRank）

摘要：鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要，本文基于MapReduce计算模型实现了PageRank算法。为验证本文算法的有效性，本文采用177万余条源URL到目标URL链接的数据集，并迭代101次来展开测试，测试结果表明：对上述数据集进行测试，总计耗时40.29分钟。但是，本文作者的意图并不是为了实现该算法，而是将该算法的设计思想引入后续Web抓取服务的优化与改进之中，以及后续文本挖掘中对权重值计算的需要之中。阅读全文

posted @ 2015-11-16 22:33 志青云集阅读(5902) 评论(0) 推荐(0)

文本挖掘之文本聚类（MapReduce）

摘要：针对大数量的文本数据，采用单线程处理时，一方面消耗较长处理时间，另一方面对大量数据的I/O操作也会消耗较长处理时间，同时对内存空间的消耗也是很大，因此，本文引入MapReduce计算模型，以分布式方式处理文本数据，以期提高数据处理速率。本文结合Kmeans和DBSCAN算法，对上述算法进行改进，其中借鉴Kmeans聚类方法（类别个数的确定性）以及DBSCAN聚类方法（基于密度），并在数据处理过程中引入多个Reducer对数据进行归并处理。测试结果表明：在文本个数为457条，迭代次数为50次时，该算法具有可行性；但是在数据规模较小时，其处理速率较单线程处理存在一定的劣势，但是当数据量继续增大（数据量达到一定规模）时，基于分布式的算法，其速率优势会更加明显。阅读全文

posted @ 2015-11-12 23:56 志青云集阅读(2530) 评论(1) 推荐(1)

志青云集

随笔分类 - 数据挖掘

数据挖掘之权重计算（PageRank）

文本挖掘之文本聚类（MapReduce）

文本挖掘之文本聚类（OPTICS）

文本挖掘之文本聚类（DBSCAN）

文本挖掘之文本聚类（借力打力）

文本挖掘之文本相似度判定

文本挖掘之文本情感分析

公告

导航