随笔分类 -  机器学习/数据挖掘

大数据; web挖掘; 数据检索; 机器学习
摘要:http://www.cnblogs.com/nokiaguy/archive/2008/05/12/1193539.html 阅读全文
posted @ 2014-07-20 22:30 midu 阅读(151) 评论(0) 推荐(0)
摘要:本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问... 阅读全文
posted @ 2014-05-22 22:34 midu 阅读(1012) 评论(0) 推荐(1)
摘要:http://mediamax.allyes.com/news/newsIndex.htm?tag=0 阅读全文
posted @ 2014-01-19 18:53 midu 阅读(187) 评论(0) 推荐(0)