爬虫 - 随笔分类 - 月河

scrapy 命令行

摘要：中文文档地址：https://scrapy-chs.readthedocs.io/zh_CN/stable/ 查看所有命令查看帮助信息查看版本信息新建一个工程构建爬虫genspider(generator spider) 一个工程中可以存在多个spider, 但是名字必须唯一查看当前项目内阅读全文

posted @ 2018-08-17 13:30 月河阅读(126) 评论(0) 推荐(0)

安装scrapy框架

摘要：安装scrapy框架之前，需要安装几个必备库 ps.分享个python库下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/ 0、wheel（有了这个库之后可以本地安装pyhton库） 1、lxml 2、pyOpenSSL 3、pywin32 4、twis 阅读全文

posted @ 2018-08-13 14:20 月河阅读(120) 评论(0) 推荐(0)

pyquery库的使用

摘要：pyquery标签选择获取了所有的img标签（css选择器，你也可以换成不同的class和id） 1 import requests 2 import re 3 from pyquery import PyQuery as pq 4 headers={ 5 "Accept": "text/html 阅读全文

posted @ 2017-12-27 19:28 月河阅读(724) 评论(0) 推荐(0)

beautifulsoup的一些使用

摘要：自动补全代码：查找标签获取名称获取属性获取内容嵌套选择子节点或者子孙节点获取父节点获取祖先节点获取兄弟节点前面的兄弟节点标准选择器find_all(name,attrs,recursive,**kwargs) name attrs CSS选择器获取css属性获取内容 l 阅读全文

posted @ 2017-12-27 15:07 月河阅读(189) 评论(0) 推荐(0)

requests（爬虫常用）库的使用

摘要：Requests库的使用基于urllib改写的库示例：带参数的get请求将返回的结果变为json格式获取二进制数据 1 import requests 2 response=requests.get('https://weibo.com/favicon.ico') 3 print(resp 阅读全文

posted @ 2017-12-27 14:45 月河阅读(403) 评论(0) 推荐(0)

urllib(最基本的)库的应用

摘要：Urllib库 python内置的http请求库 1、urllib.request 请求模块 2、urllib.error 异常处理模块(try,catch) 3、urllib.parse url解析模块 4、urllib.robotparser robots.txr解析模块 urlopen get 阅读全文

posted @ 2017-12-25 19:13 月河阅读(281) 评论(0) 推荐(0)

爬虫常用库的安装

摘要：urllib 库 urllib.request库 re库以上三个基本上python3内置剩下的用第三方pip安装 1、pip install requsets 返回响应status 2、pip install selenium（驱动浏览器、自动化测试）大多数网页存在js渲染，普通request 阅读全文

posted @ 2017-12-25 14:30 月河阅读(312) 评论(0) 推荐(0)

月河

随笔分类 - 爬虫

公告