爬虫 - 随笔分类 - Brice_codes

正则表达式函数 re.sub 的坑

摘要：str_ = 'hello 【123 】 world 【456 】 nihao 789' print(re.sub("【.*】", '', str_)) （将【】之间的值消除）此处sub是贪婪匹配，左括号不会匹配最近的右括号，而是最远处的右括号，导致world也被清除了输出结果：hello ni 阅读全文

posted @ 2021-02-06 14:14 Brice_codes 阅读(73) 评论(0) 推荐(0)

爬虫 - 新浪微博

摘要：哈哈新浪的爬虫是没有登录的情况下只能爬取部分数据, 所以我们还是选择登录那么登录我用的是cookie，没有用python模拟登陆过程，这个对付我这个小规模的数据够用了还是建议大家用小号的cookie ，新浪的反爬做的还是很厉害的，它和平常的网站不同，频繁访问的话不是封ip而是封号，这个要注阅读全文

posted @ 2021-02-01 15:51 Brice_codes 阅读(43) 评论(0) 推荐(0)

爬虫爬取多页数据

摘要：最近在写一个简单的爬虫,最开始使用的是BS4工具,但是后面接触到xpath,觉得这个比较适合我哈哈. 然后用xpath又重新写了一遍,其中让我困扰的还是多页爬取,ip老是被封. 网上找了很多方法,大多数都是说要建立一个ip池,循环爬取多页数据的时候,就换ip这样就不会被封了. 然后代理ip有两种,一阅读全文

posted @ 2021-01-30 16:14 Brice_codes 阅读(945) 评论(0) 推荐(0)

Brice_codes

随笔分类 - 爬虫

公告