随笔分类 -  爬虫

摘要:str_ = 'hello 【123 】 world 【456 】 nihao 789' print(re.sub("【.*】", '', str_)) (将【】之间的值消除) 此处sub是贪婪匹配,左括号不会匹配最近的右括号,而是最远处的右括号,导致world也被清除了 输出结果:hello ni 阅读全文
posted @ 2021-02-06 14:14 Brice_codes 阅读(73) 评论(0) 推荐(0)
摘要:哈哈新浪的爬虫是 没有登录的情况下只能爬取部分数据, 所以我们还是选择登录 那么登录我用的是cookie,没有用python模拟登陆过程,这个对付我这个小规模的数据够用了 还是建议大家用小号的cookie , 新浪的反爬做的还是很厉害的 ,它和平常的网站不同,频繁访问的话不是封ip而是封号,这个要注 阅读全文
posted @ 2021-02-01 15:51 Brice_codes 阅读(43) 评论(0) 推荐(0)
摘要:最近在写一个简单的爬虫,最开始使用的是BS4工具,但是后面接触到xpath,觉得这个比较适合我哈哈. 然后用xpath又重新写了一遍,其中让我困扰的还是多页爬取,ip老是被封. 网上找了很多方法,大多数都是说要建立一个ip池,循环爬取多页数据的时候,就换ip这样就不会被封了. 然后代理ip有两种,一 阅读全文
posted @ 2021-01-30 16:14 Brice_codes 阅读(945) 评论(0) 推荐(0)