2019 年 2月 13 日随笔档案 - 路漫漫我不畏

2019年2月13日

摘要：大部分网站对网络爬虫都有限制，限制方式有两种：一、Robots协议；二、网站通过判断对网站访问http的头部信息来查看是否是爬虫，并对爬虫做相关拦截第一种限制是书面限制，第二种是强制性阻拦限制。那我们如何去突破第二种限制呢？首先我们要爬取一个网站大部分会使用requests库的get()方法，阅读全文

posted @ 2019-02-13 17:41 路漫漫我不畏阅读(1665) 评论(0) 推荐(0)

python笔记之字符串

摘要：简介：以下表示都为str类型，即字符串：常用方法说明： 1. string.strip()：删除字符串两端的空白(空格、制表符、换行符) string.rstrip()：只删除字符串右端的空白 string.lstrip()：只删除字符串左端的空白 2. string.title()：将每个单词阅读全文

posted @ 2019-02-13 13:52 路漫漫我不畏阅读(251) 评论(0) 推荐(0)

浅析requests库响应对象的text和content属性

摘要：在做爬虫时请求网页的requests库是必不可少的，我们常常会用到 res = resquests.get(url) 方法，在获取网页的html代码时常常使用res的text属性: html = res.text，在下载图片或文件时常常使用res的content属性: 下面我们来看看 'text' 阅读全文

posted @ 2019-02-13 11:17 路漫漫我不畏阅读(1867) 评论(0) 推荐(2)

Mr hu

生命漫长也短暂。

公告