MYPYNOTE

导航

 

2018年8月11日

摘要: 需要在setting.py里找到ROBOTSTXT_OBEY并设为false 来源:https://blog.csdn.net/yimingsilence/article/details/52119720 阅读全文
posted @ 2018-08-11 22:41 MYPYNOTE 阅读(84) 评论(0) 推荐(0)
 

2018年8月10日

摘要: 自己练习爬取拉钩网信息的时候爬取的信息如下: {'jobClass': [u'\u9500\u552e\u52a9\u7406'], 'jobUrl': u'https://www.lagou.com/zhaopin/xiaoshouzhuli/'}2018-08-10 15:35:48 [scra 阅读全文
posted @ 2018-08-10 15:51 MYPYNOTE 阅读(317) 评论(0) 推荐(0)
 

2018年8月7日

摘要: 原本使用xpath helper匹配的时候还是好好的,然鹅,把这个.//*[@id='novelInfo']/table/tbody/tr[3]/td[1]/复制到代码里就不行了,debug的时候显示none 由于我要爬取的信息在第二个tap的一个表格里(网页打开时,默认显示tap1)原以为是因为j 阅读全文
posted @ 2018-08-07 18:11 MYPYNOTE 阅读(587) 评论(0) 推荐(0)
 

2018年8月5日

摘要: 今天根据书上的介绍写了一个简单爬虫,爬取豌豆荚里面APP的基本信息,但是在调试结果正常后,发现跳转到result页面后没有看到结果。 后来上网查了一下,发现要在def detail_page(self, response)方法的前面加上@config(priority=2) 即: @config(p 阅读全文
posted @ 2018-08-05 20:54 MYPYNOTE 阅读(388) 评论(0) 推荐(0)
 
摘要: 今天刚刚接触pyspider,在调试的时候注意匹配数据可以这样写: <div class="download-wp"> <a data-app-id="28855" data-app-vid="800689740" data-app-name="爱奇艺" data-app-pname="com.qi 阅读全文
posted @ 2018-08-05 20:46 MYPYNOTE 阅读(220) 评论(0) 推荐(0)
 
摘要: 《python爬虫开发与项目实践》里最后一章介绍了pyspider的使用。然鹅。。我刚开始就报错了: Exception: HTTP 599: SSL certificate problem: unable to get local issuer certificate 网上一查发现,原因是:这个错 阅读全文
posted @ 2018-08-05 20:36 MYPYNOTE 阅读(225) 评论(0) 推荐(0)
 
摘要: 在python2.7的环境下,使用pip install pymongo安装模块报以下错误: Could not install packages due to an EnvironmentError: [Error 5] : 'd:\\program files\\python2.7\\Lib\\ 阅读全文
posted @ 2018-08-05 15:01 MYPYNOTE 阅读(382) 评论(0) 推荐(0)
 
摘要: 调试的时候总是提示 KeyError: 'novelLabel'然后决定断点调试一下, 在def parse_book_list(self, response):方法下,添加print(response)并添加断点,查看这里的值,发现<200 http://yunqi.qq.com/bk/so2/n 阅读全文
posted @ 2018-08-05 13:28 MYPYNOTE 阅读(1618) 评论(0) 推荐(0)
 
摘要: 这2天遇到一个问题,之前调试的时候爬取了一些数据,结果第二天重新调试的时候发现爬虫很快结束,而且还没有报错。后来从日志里看到这个: no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicate 这句就是在ge 阅读全文
posted @ 2018-08-05 10:37 MYPYNOTE 阅读(834) 评论(0) 推荐(0)
 

2018年8月3日

摘要: 要先启动redis再去启动爬虫 阅读全文
posted @ 2018-08-03 18:28 MYPYNOTE 阅读(467) 评论(0) 推荐(0)