随笔分类 -  爬虫

摘要:本文在网上找到有三种爬取方法 1.使用订阅号功能里的查询链接 , (此链接现在反扒措施严重,爬取几十页会封订阅号,仅供参考,) 详情请访问此链接:https://cuiqingcai.com/4652.html 2.使用搜狗搜索的微信搜索(此方法只能查看每个微信公众号的前10条文章) 详情请访问此链 阅读全文
posted @ 2018-07-09 17:01 自说自话唉 阅读(20862) 评论(9) 推荐(2)
摘要:middlewares.py setting.py 小蜘蛛代码 阅读全文
posted @ 2018-04-21 16:26 自说自话唉 阅读(309) 评论(0) 推荐(0)
摘要:用scrapy爬取http://www.xicidaili.com/nt/1(国内ip)是启动小蜘蛛一直报错,将网址换成百度是可以进入parse。 错误: 2018-04-17 16:55:52 [scrapy.core.engine] DEBUG: Crawled (503) <GET http: 阅读全文
posted @ 2018-04-17 17:10 自说自话唉 阅读(4428) 评论(0) 推荐(0)
摘要:python3+win10在pip install安装scrapy下载了一大堆东西到最后出现题目错误 解决方法: 去此网址 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载与之对应的版本 如:Twisted-17.9.0-cp36-cp36m 阅读全文
posted @ 2018-02-08 16:29 自说自话唉 阅读(165) 评论(0) 推荐(0)