随笔分类 - 爬虫
爬虫的基本知识以及爬虫框架的基本使用
摘要:目录: scripy中xpath解析 介绍: Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致: ''' Components: 1、引擎(EGINE) 引擎负责控制系
阅读全文
摘要:简介: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 使用 生成beautifulSoup对象: 常用获取方法: 五种过滤器: 搜索文档树1.文本查找 2.正则查找 3.列表 4.True
阅读全文

浙公网安备 33010602011771号