爬虫 - 随笔分类 - hairy_li

Requests杂谈

摘要：请求 1 get请求 r = requests.get('https://api.github.com/events') r = requests.get(url, headers=headers) 2 post请求 r = requests.post('http://httpbin.org/pos 阅读全文

posted @ 2018-06-24 16:00 hairy_li 阅读(81) 评论(0) 推荐(0)

爬虫设置代理

摘要：在爬取网站内容的时候，最常遇到的问题是：网站对IP有限制，会有防抓取功能，最好的办法就是IP轮换抓取（加代理）下面来说一下Scrapy如何配置代理，进行抓取 1.在Scrapy工程下新建“middlewares.py” 2.在项目配置文件里(./pythontab/settings.py)添加完阅读全文

posted @ 2018-06-22 14:44 hairy_li 阅读(173) 评论(0) 推荐(0)

爬虫

摘要：爬虫创建项目：scrapy startproject Myspider（项目名）创建爬虫：scrapy genspider baidu (爬虫名) "域名" 运行爬虫 : scrapy crawl 爬虫 allowed_domains = ['tencent.com/'] 这是错误的写法，阅读全文

posted @ 2018-06-15 15:37 hairy_li 阅读(131) 评论(0) 推荐(0)

随笔分类 - 爬虫

Requests杂谈

爬虫设置代理

爬虫

导航

公告