随笔分类 - 爬虫笔记
摘要:[TOC] bs4的作用 1、从html或者xml中提取数据的python库,修改xml requests+bs4爬汽车之家新闻 遍历文档树 查找文档树 查找文档树的速度比遍历文档树慢 搭建免费的代理池 github项目地址:https://github.com/jhao104/proxy_pool
        阅读全文
                
摘要:[TOC] 爬虫介绍 爬虫的本质就是模拟发送http请求(requests模块),之后解析返回的数据(re,bs4,lxml,json等模块),最后将数据入库(redis,mysql,mongodb)。 app的爬虫,本质上是一模一样的。 python做爬虫的优势在于:包多,而且有爬虫的框架scra
        阅读全文
                

 浙公网安备 33010602011771号
浙公网安备 33010602011771号