随笔分类 - 爬虫

scrapy各种持久化存储的奇淫技巧

摘要：理论磁盘文件：基于终端指令 1)保证parse方法返回一个可迭代类型的对象（存储解析到的页面内容） 2)使用终端指令完成数据存储到指定磁盘文件中的操作，如：scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀 --nolog 基于管道 items.py:存储解析到的页面数据 pipeli 阅读全文

posted @ 2019-06-18 14:30 岱宗夫阅读(443) 评论(0) 推荐(0)

三种数据解析方式

摘要：数据解析方式之一：xpath 使用流程：本地：etree=etree.parse('本地文件路径') etree.xpath('xpath表达式') 网络：etree=etree.HTML('网络请求到的页面数据') etree.xpath('xpath表达式') xpath插件：火狐浏览器右上角阅读全文

posted @ 2019-06-09 09:08 岱宗夫阅读(2461) 评论(0) 推荐(0)

岱宗夫

随笔分类 - 爬虫

scrapy各种持久化存储的奇淫技巧

三种数据解析方式

导航

公告