python3+Scrapy爬虫框架 - 随笔分类 - 听海8

Scrapy 爬虫完整案例-进阶篇

摘要：Scrapy 爬虫完整案例-进阶篇 1.1 进阶篇案例一案例：爬取豆瓣电影 top250( movie.douban.com/top250 )的电影数据，并保存在 MongoDB 中。案例步骤：第一步：明确爬虫需要爬取的内容。我们做爬虫的时候，需要明确需要爬取的内容，豆瓣电影 TOP 250 阅读全文

posted @ 2018-09-25 16:37 听海8 阅读(20032) 评论(0) 推荐(2)

Scrapy 爬虫模拟登陆的3种策略

摘要：Scrapy 爬虫模拟登陆的3种策略阅读全文

posted @ 2018-09-11 16:42 听海8 阅读(1726) 评论(0) 推荐(0)

Scrapy Shell

摘要：18.1 Scrapy Shell Scrapy 终端是一个交互终端，我们可以在未启动 spider 的情况下尝试及调试代码，也可以用来测试 XPath 或 CSS 表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。 18.2.1 启动Scrapy Shell 进入项目的根目录，执行下列命阅读全文

posted @ 2018-08-29 10:11 听海8 阅读(378) 评论(0) 推荐(0)

Ipython

摘要：18.1 IPython IPython 是 python 的一个第三方库，在新建 Scrapy 爬虫项目和运行 Scrapy 爬虫，都会用到 Scrapy 终端，如果安装了 IPython ，Scrapy 终端将使用 IPython (替代标准Python 终端)。 IPython 终端与其他相比阅读全文

posted @ 2018-08-29 10:06 听海8 阅读(402) 评论(0) 推荐(0)

XPath helper

摘要：26.1 XPath helper 26.1.1 XPath helper 插件概述 xPath helper 是一款 Chrome 浏览器的开发者插件，安装了 xPath helper 后就能轻松获取 HTML元素的 xPath，程序员就再也不需要通过搜索 html 源代码，定位一些 id 去找到阅读全文

posted @ 2018-08-29 10:02 听海8 阅读(1600) 评论(0) 推荐(0)

web网站验证码自动识别

摘要：验证码自动识别在很多WEB网站登录的时候，都需要输入验证码，Python提供了一些库（例如常用的OCR库）来识别和使用在线图片中的文字。将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition, OCR)。可以实现OCR的底层库并不多,目前很多库都是使用阅读全文

posted @ 2018-06-24 10:10 听海8 阅读(1477) 评论(0) 推荐(0)

Python3 urllib.request 库下的Cookie 应用实例

摘要：Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。 Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性阅读全文

posted @ 2018-05-17 15:55 听海8 阅读(1670) 评论(0) 推荐(0)

python3下urllib.request库高级应用之ProxyHandler处理器（代理设置）

摘要：python3下urllib.request库高级应用之ProxyHandler处理器_代理设置使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设阅读全文

posted @ 2018-05-17 15:50 听海8 阅读(16871) 评论(0) 推荐(2)

python3下urllib.request库高级应用之Handle处理器和自定义Opener

摘要：python3下urllib.request库高级应用之Handle处理器和自定义Opener 经过前面对urllib.request库的频繁使用，都知道我们使用urllib库请求是都是使用urlopen()方法实现的。实际上它的底层是使用HTTPHandler个Opener来实现的。查看urlli 阅读全文

posted @ 2018-05-16 09:06 听海8 阅读(8498) 评论(0) 推荐(2)

Python3处理HTTPS请求 SSL证书验证

摘要：Python3处理HTTPS请求 SSL证书验证金融类的公司网站一般都是https 开头的网站，urllib.request可以为 HTTPS 请求验证SSL证书，就像web浏览器一样，如果网站的SSL证书是经过CA认证的，则能够正常访问，如：例子一：编写一个https请求程序访问（平安好伙伴出阅读全文

posted @ 2018-05-15 15:31 听海8 阅读(18463) 评论(0) 推荐(1)

Python3之利用Cookie模拟登录

摘要：Python3之利用Cookie模拟登录利用Cookie模拟登录步骤： 2.登录成功点“客户管理”模块。 3. 进入客户管理模块，显示客户列表。 4.通过抓包工具抓取客户列表，得到登录后的Cookie信息。 GET http://demo.bxcker.com/customer/index.sht 阅读全文

posted @ 2018-05-15 12:01 听海8 阅读(846) 评论(0) 推荐(0)

利用sublime text处理抓到的http请求头信息替换成字典

摘要：1. 打开sublime text->新建新的文件 2. 从抓包工具抓下来的header信息 Host: demo.bxcker.com Connection: keep-alive Pragma: no-cache Cache-Control: no-cache Accept: */* X-Req 阅读全文

posted @ 2018-05-15 11:01 听海8 阅读(1331) 评论(0) 推荐(0)

Python3 parse.urlencode() 与parse.unquote()

摘要：URL编码与解码一．parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块，但是提供了不同的功能。两个最显著的不同如下： 1.urllib 仅可以接受URL，不能创建设置了headers 的Request 类阅读全文

posted @ 2018-05-14 11:19 听海8 阅读(5487) 评论(0) 推荐(0)

Python3环境安装Scrapy爬虫框架过程

摘要：Python3环境安装Scrapy爬虫框架过程 1. 安装wheel pip install wheel 安装检查： 2. 安装lxml pip install lxml-4.2.1-cp36-cp36m-win_amd64.whl 去https://www.lfd.uci.edu/~gohlke/ 阅读全文

posted @ 2018-05-14 10:38 听海8 阅读(822) 评论(0) 推荐(1)

Python3 response响应常用的方法

摘要：Python3 response响应常用的方法例子一：获取HTTP请求响应码 import urllib.request header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li 阅读全文

posted @ 2018-05-14 10:20 听海8 阅读(4363) 评论(0) 推荐(0)

Python3爬虫介绍

摘要：Python3爬虫介绍一．为什么要做爬虫首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、阅读全文

posted @ 2018-05-14 10:15 听海8 阅读(2318) 评论(0) 推荐(0)

Python3 urllib.request库的基本使用

摘要：Python3 urllib.request库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib.request库。 urllib.request库是 Python3 自带的模块(不需要下载，阅读全文

posted @ 2018-05-14 10:10 听海8 阅读(1632) 评论(0) 推荐(0)

听海8

随笔分类 - python3+Scrapy爬虫框架

公告