随笔分类 - 机器学习/数据挖掘
大数据;
web挖掘;
数据检索;
机器学习
摘要:http://www.cnblogs.com/nokiaguy/archive/2008/05/12/1193539.html
阅读全文
摘要:本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问...
阅读全文
摘要:http://mediamax.allyes.com/news/newsIndex.htm?tag=0
阅读全文

浙公网安备 33010602011771号