02 2020 档案

摘要:scrapy中的useragent与代理ip 方法一: user-agent我们可以直接在settings.py中更改,如下图,这样修改比较简单,但是并不推荐,更推荐的方法是修改使用scrapy的中间件middlewares.py 推荐方案: scrapy的中间件可以支持我们在对爬虫的请求进行定制化 阅读全文
posted @ 2020-02-28 16:10 风,又奈何 阅读(812) 评论(0) 推荐(0)
摘要:Xpath的text()与string(.) 我们在爬取网站使用Xpath提取数据的时候,最常使用的就是Xpath的text()方法,该方法可以提取当前元素的信息,但是某些元素下包含很多嵌套元素, 我们想一并的提取出来,这时候就用到了string(.)方法,但是该方法使用的时候跟text()不太一样 阅读全文
posted @ 2020-02-15 16:41 风,又奈何 阅读(13999) 评论(0) 推荐(3)