随笔分类 -  Scrapy

scrapy关键知识
摘要:假如:css 选择其中如果div元素下面有子节点a 和孙节点 imag 1: 如果要选择imga 可以用('div imag') 但是不能用('div > imag') 这其中‘ ’ 和 ‘>'的区别就是 ‘ ’是选择其所有的后辈节点,但是‘>’只是选择儿子节点。 2:选择div下面的第二个a标签可 阅读全文
posted @ 2019-05-04 20:12 脱离低级趣味 阅读(292) 评论(0) 推荐(0)
摘要:命令行输入:scrapy genspider --list 可以看到scrapy给我们提供的爬虫模板: basiccrawlcsvfeedxmlfeed 一般都是用默认模板生成的spider,如果需要选择模本可以用命令: scrapy genspider -t crawl .... 关于pachar 阅读全文
posted @ 2019-05-04 20:11 脱离低级趣味 阅读(252) 评论(0) 推荐(0)
摘要:fake-useragent请求知乎的坑 在用scrapy爬取知乎的时候,用fake-useragent模块随机添加请求头的时候发现知乎跳转到一个提示浏览器版本过低的网页。 我百思不得其解,自己思考如下:综合1、3,说明fake-useragent应该没问题的,综合3、4我怀疑这是知乎使用的一种反爬 阅读全文
posted @ 2019-05-04 20:10 脱离低级趣味 阅读(1201) 评论(0) 推荐(0)
摘要:在用到itemloader时,既可以通过在item中定义一些函数,作为input_processor()的参数对提取的数据进行修改,也可以直接在提取的字段后面加入自己的正则表达式提取数据。如上图中的re语句。 阅读全文
posted @ 2019-05-04 20:06 脱离低级趣味 阅读(311) 评论(0) 推荐(0)
摘要:FormRequest FormRequest类是专门用来处理HTML表单的,同时对隐藏的表单处理也很方便。适合用来完成登录操作。 类原型:class scrapy.http.FormRequest(url[, formdata, ...])其构造参数formdata可以是字典形式,也可以是(key 阅读全文
posted @ 2019-05-04 20:04 脱离低级趣味 阅读(203) 评论(0) 推荐(0)