Fork me on GitHub

随笔分类 -  爬虫

摘要:把玩轻量级爬虫框架Gecco 阅读全文
posted @ 2018-01-21 13:21 JackieZheng 阅读(4712) 评论(0) 推荐(2)
摘要:如何实现模拟登录,如何模拟登录带有验证码的网站,如何使用Tesseract-OCR文本识别技术 阅读全文
posted @ 2017-03-12 12:38 JackieZheng 阅读(2623) 评论(0) 推荐(2)
摘要:修复每次都从种子网站爬取的bug,针对"程序运行,从种子地址开始,对于每次爬取的网站地址先查询数据库是否存在该条记录,如果不存在,则立即插入","当前网站地址爬取完毕后,查找数据库从中取出第一个crawled为0的记录进行爬取,每次只取一条;"以及"存储电影详情页记录以及短评数据都是采用解析一条则立即存储到数据库"等问题使用批量读写减少与数据库的交互以及频繁的方法调用。 阅读全文
posted @ 2017-02-05 20:36 JackieZheng 阅读(1463) 评论(3) 推荐(0)
摘要:看看一只豆瓣影视小爬虫是如何诞生的,JewelCrawler可以爬影视详情和短评并基于Word2Vec做情感分析,代码已经发在Github上。 阅读全文
posted @ 2016-12-11 12:26 JackieZheng 阅读(8559) 评论(2) 推荐(8)
摘要:抓了20000多条的短评数据,利用Word2Vec算法做了一回情感分析,透过这些几个字到几百个字不等的短评来一窥评论者的喜怒哀乐。看看如何使用中文分词器以及加载停用词库,Word2Vec又是如何构建语料库,训练数据集以及得到模型的。 阅读全文
posted @ 2016-12-04 02:12 JackieZheng 阅读(8333) 评论(2) 推荐(4)
摘要:一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。最近把自己做的这个豆瓣电影爬虫的数据采集部分跑起来了,目前已经爬取并存储了几万条的网页地址、几百条电影详情记录和几百条的电影短评记录。现在做一个概要的介绍和演示。 阅读全文
posted @ 2016-11-06 11:11 JackieZheng 阅读(16135) 评论(18) 推荐(5)
摘要:为了给媳妇在网上挂个号,寻求支付宝,寄希望于百度医生,奈何都以未果收场,于是自己动手,写了一款实时监听百度医生指定医院、科室的程序,实现监听、抢号一条龙服务。 阅读全文
posted @ 2016-04-02 12:33 JackieZheng 阅读(4972) 评论(26) 推荐(15)
摘要:本文主要介绍nutch的五个环节中的最后一个流程update的具体执行流程。 阅读全文
posted @ 2014-08-06 13:36 JackieZheng 阅读(459) 评论(0) 推荐(0)
摘要:本篇主要解读了nutch的第四个环节parse过程的执行流程和处理方法。 阅读全文
posted @ 2014-08-03 11:35 JackieZheng 阅读(1364) 评论(0) 推荐(0)
摘要:本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程,其中包括通过生产者-消费者的模型解决爬虫问题,nutch如何爬取页面以及对于不同的返回状态做相应的处理机制,其中还涉及到一些多线程的知识。 阅读全文
posted @ 2014-08-02 15:23 JackieZheng 阅读(1299) 评论(0) 推荐(0)
摘要:本文主要讲解了自己阅读nutch中Generate整个运行过程,Generate主要分为以下几个部分:以前面的Inject过程得到的输出crawldb为输入提交job并得到抓取列表存放在临时文件夹中;再以该临时文件夹中的数据为输入提交一个job并得到一个输出segments;最后更新crawldb,避免爬取的url不会重复。 阅读全文
posted @ 2014-07-27 20:35 JackieZheng 阅读(1243) 评论(0) 推荐(0)
摘要:本文主要从nutch的Crawl方法开始,分享了nutch爬取的第一个步骤——注入(Inject)以及具体的流程和处理的方法 阅读全文
posted @ 2014-07-26 14:53 JackieZheng 阅读(1369) 评论(0) 推荐(0)