Loading

随笔分类 -  爬虫笔记

摘要:[TOC] bs4的作用 1、从html或者xml中提取数据的python库,修改xml requests+bs4爬汽车之家新闻 遍历文档树 查找文档树 查找文档树的速度比遍历文档树慢 搭建免费的代理池 github项目地址:https://github.com/jhao104/proxy_pool 阅读全文
posted @ 2020-04-22 20:43 开花的马铃薯 阅读(358) 评论(0) 推荐(0)
摘要:[TOC] 爬虫介绍 爬虫的本质就是模拟发送http请求(requests模块),之后解析返回的数据(re,bs4,lxml,json等模块),最后将数据入库(redis,mysql,mongodb)。 app的爬虫,本质上是一模一样的。 python做爬虫的优势在于:包多,而且有爬虫的框架scra 阅读全文
posted @ 2020-04-07 23:48 开花的马铃薯 阅读(509) 评论(0) 推荐(0)