enet03 - 博客园

2023年2月19日

该文被密码保护。阅读全文

posted @ 2023-02-19 08:48 enet03 阅读(3) 评论(0) 推荐(0)

2017年3月13日

摘要：网络爬虫的限制 1，来源审查：判断user-agent进行限制，只响应浏览器和友好爬虫 2，发布公告：robots协议（相当于告示牌），告知爬虫网站的爬取策略，要求爬虫遵守。什么能爬取，什么不能爬取。是否遵守，有爬虫自己决定。阅读全文

posted @ 2017-03-13 16:28 enet03 阅读(224) 评论(0) 推荐(0)

requests库和robots.txt标准

摘要： requests库（自动爬取HTML页面，自动网络请求提交）七个主要方法： requests.request() request.get() request.head() request.post() request.put() request.patch() request.delete() 五阅读全文

posted @ 2017-03-13 09:20 enet03 阅读(223) 评论(0) 推荐(0)