爬虫 - 随笔分类 - 自说自话唉

爬虫爬取微信公众号

摘要：本文在网上找到有三种爬取方法 1.使用订阅号功能里的查询链接，（此链接现在反扒措施严重，爬取几十页会封订阅号，仅供参考，）详情请访问此链接：https://cuiqingcai.com/4652.html 2.使用搜狗搜索的微信搜索（此方法只能查看每个微信公众号的前10条文章）详情请访问此链阅读全文

posted @ 2018-07-09 17:01 自说自话唉阅读(20971) 评论(9) 推荐(2)

先使用phantomJS（selenuim以后将不支持phantomJS，可使用无头chrome 和火狐插件）模拟登录用户，拿到登录后页面的cookie，再用cookie访问本网站，拿到想要的搜索结果

摘要：先模拟登陆获取cookie，再拿着cookie访问网站，获取想要的搜索结果阅读全文

posted @ 2018-05-02 15:19 自说自话唉阅读(831) 评论(0) 推荐(0)

scrapy设置ip池问题

摘要：middlewares.py setting.py 小蜘蛛代码阅读全文

posted @ 2018-04-21 16:26 自说自话唉阅读(309) 评论(0) 推荐(0)

INFO: Ignoring response <503 http://www.xicidaili.com/nn>: HTTP status code is not handled or not allowed 用scrapy爬虫

摘要：用scrapy爬取http://www.xicidaili.com/nt/1（国内ip）是启动小蜘蛛一直报错，将网址换成百度是可以进入parse。错误： 2018-04-17 16:55:52 [scrapy.core.engine] DEBUG: Crawled (503) <GET http: 阅读全文

posted @ 2018-04-17 17:10 自说自话唉阅读(4431) 评论(0) 推荐(0)

pip安装scrapy时出现的错误：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual....

摘要：python3+win10在pip install安装scrapy下载了一大堆东西到最后出现题目错误解决方法：去此网址 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载与之对应的版本如：Twisted-17.9.0-cp36-cp36m 阅读全文

posted @ 2018-02-08 16:29 自说自话唉阅读(166) 评论(0) 推荐(0)

自说自话唉

随笔分类 - 爬虫

公告