随笔分类 - 爬虫
摘要:中文文档地址:https://scrapy-chs.readthedocs.io/zh_CN/stable/ 查看所有命令 查看帮助信息 查看版本信息 新建一个工程 构建爬虫genspider(generator spider) 一个工程中可以存在多个spider, 但是名字必须唯一 查看当前项目内
阅读全文
摘要:安装scrapy框架之前,需要安装几个必备库 ps.分享个python库下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 0、wheel(有了这个库之后可以本地安装pyhton库) 1、lxml 2、pyOpenSSL 3、pywin32 4、twis
阅读全文
摘要:pyquery标签选择 获取了所有的img标签(css选择器,你也可以换成不同的class和id) 1 import requests 2 import re 3 from pyquery import PyQuery as pq 4 headers={ 5 "Accept": "text/html
阅读全文
摘要:自动补全代码: 查找标签 获取名称 获取属性 获取内容 嵌套选择 子节点 或者 子孙节点 获取父节点 获取祖先节点 获取兄弟节点 前面的兄弟节点 标准选择器find_all(name,attrs,recursive,**kwargs) name attrs CSS选择器 获取css属性 获取内容 l
阅读全文
摘要:Requests库的使用 基于urllib改写的库 示例: 带参数的get请求 将返回的结果变为json格式 获取二进制数据 1 import requests 2 response=requests.get('https://weibo.com/favicon.ico') 3 print(resp
阅读全文
摘要:Urllib库 python内置的http请求库 1、urllib.request 请求模块 2、urllib.error 异常处理模块(try,catch) 3、urllib.parse url解析模块 4、urllib.robotparser robots.txr解析模块 urlopen get
阅读全文
摘要:urllib 库 urllib.request库 re库 以上三个基本上python3内置 剩下的用第三方pip安装 1、pip install requsets 返回响应status 2、pip install selenium(驱动浏览器、自动化测试) 大多数网页存在js渲染,普通request
阅读全文

浙公网安备 33010602011771号