随笔分类 -  爬虫

scrapy各种持久化存储的奇淫技巧
摘要:理论 磁盘文件: 基于终端指令 1)保证parse方法返回一个可迭代类型的对象(存储解析到的页面内容) 2)使用终端指令完成数据存储到指定磁盘文件中的操作,如:scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀 --nolog 基于管道 items.py:存储解析到的页面数据 pipeli 阅读全文

posted @ 2019-06-18 14:30 岱宗夫 阅读(443) 评论(0) 推荐(0)

三种数据解析方式
摘要:数据解析方式之一:xpath 使用流程: 本地:etree=etree.parse('本地文件路径') etree.xpath('xpath表达式') 网络:etree=etree.HTML('网络请求到的页面数据') etree.xpath('xpath表达式') xpath插件:火狐浏览器右上角 阅读全文

posted @ 2019-06-09 09:08 岱宗夫 阅读(2461) 评论(0) 推荐(0)

导航