摘要: BBS 准实时舆情监测技术研究与实现采用聚焦爬虫来实现数据采集,同时采用基于目标网页特征的方式来解决对抓取目标的描述,根据目标网页的特征,来制定相应的搜索策略。使用Scrapy 来开发数据采集程序。在定制爬虫时,可以定制两种类型的爬虫。一种是对于FireBird BBS类型的BBS,为所监测的每个BBS 单独定制一个爬虫爬取数据;另外一种是对于discuzz 论坛和phpwind 论坛,采用模板爬虫模式,将这两种论坛的不同版本都定制成模板爬虫,然后将所监测的BBS 按照模板匹配爬取数据。树型结构只要通过相应的语法解析器,可方便查找各元素的相对位置。目前比较流行的html 解析工具是HtmlPa 阅读全文
posted @ 2013-04-13 12:37 书画还家 阅读(214) 评论(0) 推荐(0) 编辑