摘要: 1.ProxyHandler处理器 为了规避IP被禁的情况,我们可以设置一些代理服务器,隔一段时间换一个代理,就算一个IP被禁,也可以换另一个IP继续爬取。在urllib中,用ProxyHandler来设置使用代理服务器。 原理: 在请求url之前,先请求代理服务器,然后让代理服务器去请求去目的ur 阅读全文
posted @ 2020-04-05 21:40 VictorMir 阅读(456) 评论(0) 推荐(0)
摘要: 1.发送请求 想要送什么类型的请求,就直接调用什么方法。比如说:发送get请求,直接调用requests.get即可 发送post请求 如果返回的是json数据,那么可以使用'response.json()'将其转化成dict或者list 2.response的一些属性 代码 response.te 阅读全文
posted @ 2020-04-05 21:38 VictorMir 阅读(164) 评论(0) 推荐(0)
摘要: 1.正则表达式 正则表达式是对字符串和特殊字符操作的一种逻辑公式(文本模式),即用事先定义好的一些特定字符、及其组合,来构成一个“规则字符串”,用它来表达对字符串的一种过滤逻辑。 例子 ^[0 9]+abc$ ① '^'表示匹配输入字符串的开始位置 ②'[0 9]+' 匹配多个数字,'[0 9]' 阅读全文
posted @ 2020-04-05 21:37 VictorMir 阅读(279) 评论(0) 推荐(0)
摘要: 1.RE模块使用 re.match函数 第一个参数是正则表达式,第二个参数是要匹配的字符串,第三个参数是用于控制正则表达式的匹配方式。 如果匹配成功,则返回一个匹配对象,否则返回None。可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。 re.search(patt 阅读全文
posted @ 2020-04-05 21:30 VictorMir 阅读(107) 评论(0) 推荐(0)
摘要: 1.Beautiful Soup库介绍 Beautiful Soup也是一个HTML/XML的解析器,API人性化、支持CSS选择器、python标准库中的HTML解析器、lxml的XML解析器 与lxml的不同之处在于lxml只能局部遍历,而Beautiful Soup是基于HTML DOM(Do 阅读全文
posted @ 2020-04-05 21:27 VictorMir 阅读(105) 评论(0) 推荐(0)
摘要: 1.什么是XPath 一种在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历 2.节点 节点类型 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。其中,XML 文档是被作为节点树来对待的。树的根被称为文档节点 阅读全文
posted @ 2020-04-05 21:26 VictorMir 阅读(56) 评论(0) 推荐(0)