02 2020 档案
摘要:scrapy中的useragent与代理ip 方法一: user-agent我们可以直接在settings.py中更改,如下图,这样修改比较简单,但是并不推荐,更推荐的方法是修改使用scrapy的中间件middlewares.py 推荐方案: scrapy的中间件可以支持我们在对爬虫的请求进行定制化
阅读全文
摘要:Xpath的text()与string(.) 我们在爬取网站使用Xpath提取数据的时候,最常使用的就是Xpath的text()方法,该方法可以提取当前元素的信息,但是某些元素下包含很多嵌套元素, 我们想一并的提取出来,这时候就用到了string(.)方法,但是该方法使用的时候跟text()不太一样
阅读全文

浙公网安备 33010602011771号