随笔分类 - 爬虫
摘要:str_ = 'hello 【123 】 world 【456 】 nihao 789' print(re.sub("【.*】", '', str_)) (将【】之间的值消除) 此处sub是贪婪匹配,左括号不会匹配最近的右括号,而是最远处的右括号,导致world也被清除了 输出结果:hello ni
阅读全文
摘要:哈哈新浪的爬虫是 没有登录的情况下只能爬取部分数据, 所以我们还是选择登录 那么登录我用的是cookie,没有用python模拟登陆过程,这个对付我这个小规模的数据够用了 还是建议大家用小号的cookie , 新浪的反爬做的还是很厉害的 ,它和平常的网站不同,频繁访问的话不是封ip而是封号,这个要注
阅读全文
摘要:最近在写一个简单的爬虫,最开始使用的是BS4工具,但是后面接触到xpath,觉得这个比较适合我哈哈. 然后用xpath又重新写了一遍,其中让我困扰的还是多页爬取,ip老是被封. 网上找了很多方法,大多数都是说要建立一个ip池,循环爬取多页数据的时候,就换ip这样就不会被封了. 然后代理ip有两种,一
阅读全文

浙公网安备 33010602011771号