随笔分类 -  爬虫

摘要:中文文档地址:https://scrapy-chs.readthedocs.io/zh_CN/stable/ 查看所有命令 查看帮助信息 查看版本信息 新建一个工程 构建爬虫genspider(generator spider) 一个工程中可以存在多个spider, 但是名字必须唯一 查看当前项目内 阅读全文
posted @ 2018-08-17 13:30 月河 阅读(117) 评论(0) 推荐(0)
摘要:安装scrapy框架之前,需要安装几个必备库 ps.分享个python库下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 0、wheel(有了这个库之后可以本地安装pyhton库) 1、lxml 2、pyOpenSSL 3、pywin32 4、twis 阅读全文
posted @ 2018-08-13 14:20 月河 阅读(116) 评论(0) 推荐(0)
摘要:pyquery标签选择 获取了所有的img标签(css选择器,你也可以换成不同的class和id) 1 import requests 2 import re 3 from pyquery import PyQuery as pq 4 headers={ 5 "Accept": "text/html 阅读全文
posted @ 2017-12-27 19:28 月河 阅读(720) 评论(0) 推荐(0)
摘要:自动补全代码: 查找标签 获取名称 获取属性 获取内容 嵌套选择 子节点 或者 子孙节点 获取父节点 获取祖先节点 获取兄弟节点 前面的兄弟节点 标准选择器find_all(name,attrs,recursive,**kwargs) name attrs CSS选择器 获取css属性 获取内容 l 阅读全文
posted @ 2017-12-27 15:07 月河 阅读(186) 评论(0) 推荐(0)
摘要:Requests库的使用 基于urllib改写的库 示例: 带参数的get请求 将返回的结果变为json格式 获取二进制数据 1 import requests 2 response=requests.get('https://weibo.com/favicon.ico') 3 print(resp 阅读全文
posted @ 2017-12-27 14:45 月河 阅读(400) 评论(0) 推荐(0)
摘要:Urllib库 python内置的http请求库 1、urllib.request 请求模块 2、urllib.error 异常处理模块(try,catch) 3、urllib.parse url解析模块 4、urllib.robotparser robots.txr解析模块 urlopen get 阅读全文
posted @ 2017-12-25 19:13 月河 阅读(278) 评论(0) 推荐(0)
摘要:urllib 库 urllib.request库 re库 以上三个基本上python3内置 剩下的用第三方pip安装 1、pip install requsets 返回响应status 2、pip install selenium(驱动浏览器、自动化测试) 大多数网页存在js渲染,普通request 阅读全文
posted @ 2017-12-25 14:30 月河 阅读(305) 评论(0) 推荐(0)