随笔分类 -  python3+Scrapy爬虫框架

摘要:Scrapy 爬虫完整案例-进阶篇 1.1 进阶篇案例一 案例:爬取豆瓣电影 top250( movie.douban.com/top250 )的电影数据,并保存在 MongoDB 中。 案例步骤: 第一步:明确爬虫需要爬取的内容。 我们做爬虫的时候,需要明确需要爬取的内容,豆瓣电影 TOP 250 阅读全文
posted @ 2018-09-25 16:37 听海8 阅读(20032) 评论(0) 推荐(2)
摘要:Scrapy 爬虫模拟登陆的3种策略 阅读全文
posted @ 2018-09-11 16:42 听海8 阅读(1726) 评论(0) 推荐(0)
摘要:18.1 Scrapy Shell Scrapy 终端是一个交互终端,我们可以在未启动 spider 的情况下尝试及调试代码,也可以用来测试 XPath 或 CSS 表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 18.2.1 启动Scrapy Shell 进入项目的根目录,执行下列命 阅读全文
posted @ 2018-08-29 10:11 听海8 阅读(378) 评论(0) 推荐(0)
摘要:18.1 IPython IPython 是 python 的一个第三方库,在新建 Scrapy 爬虫项目和运行 Scrapy 爬虫,都会用到 Scrapy 终端,如果安装了 IPython ,Scrapy 终端将使用 IPython (替代标准Python 终端)。 IPython 终端与其他相比 阅读全文
posted @ 2018-08-29 10:06 听海8 阅读(402) 评论(0) 推荐(0)
摘要:26.1 XPath helper 26.1.1 XPath helper 插件概述 xPath helper 是一款 Chrome 浏览器的开发者插件,安装了 xPath helper 后就能轻松获取 HTML元素的 xPath,程序员就再也不需要通过搜索 html 源代码,定位一些 id 去找到 阅读全文
posted @ 2018-08-29 10:02 听海8 阅读(1600) 评论(0) 推荐(0)
摘要:验证码自动识别 在很多WEB网站登录的时候,都需要输入验证码,Python提供了一些库(例如常用的OCR库)来识别和使用在线图片中的文字。 将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition, OCR)。可以实现OCR的底层库并不多,目前很多库都是使用 阅读全文
posted @ 2018-06-24 10:10 听海8 阅读(1477) 评论(0) 推荐(0)
摘要:Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。 Cookie原理 HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性 阅读全文
posted @ 2018-05-17 15:55 听海8 阅读(1670) 评论(0) 推荐(0)
摘要:python3下urllib.request库高级应用之ProxyHandler处理器_代理设置 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。 所以我们可以设 阅读全文
posted @ 2018-05-17 15:50 听海8 阅读(16871) 评论(0) 推荐(2)
摘要:python3下urllib.request库高级应用之Handle处理器和自定义Opener 经过前面对urllib.request库的频繁使用,都知道我们使用urllib库请求是都是使用urlopen()方法实现的。实际上它的底层是使用HTTPHandler个Opener来实现的。查看urlli 阅读全文
posted @ 2018-05-16 09:06 听海8 阅读(8498) 评论(0) 推荐(2)
摘要:Python3处理HTTPS请求 SSL证书验证 金融类的公司网站一般都是https 开头的网站,urllib.request可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问,如: 例子一:编写一个https请求程序访问(平安好伙伴出 阅读全文
posted @ 2018-05-15 15:31 听海8 阅读(18463) 评论(0) 推荐(1)
摘要:Python3之利用Cookie模拟登录 利用Cookie模拟登录步骤: 2.登录成功点“客户管理”模块。 3. 进入客户管理模块,显示客户列表。 4.通过抓包工具抓取客户列表,得到登录后的Cookie信息。 GET http://demo.bxcker.com/customer/index.sht 阅读全文
posted @ 2018-05-15 12:01 听海8 阅读(846) 评论(0) 推荐(0)
摘要:1. 打开sublime text->新建新的文件 2. 从抓包工具抓下来的header信息 Host: demo.bxcker.com Connection: keep-alive Pragma: no-cache Cache-Control: no-cache Accept: */* X-Req 阅读全文
posted @ 2018-05-15 11:01 听海8 阅读(1331) 评论(0) 推荐(0)
摘要:URL编码与解码 一.parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下: 1.urllib 仅可以接受URL,不能创建 设置了headers 的Request 类 阅读全文
posted @ 2018-05-14 11:19 听海8 阅读(5487) 评论(0) 推荐(0)
摘要:Python3环境安装Scrapy爬虫框架过程 1. 安装wheel pip install wheel 安装检查: 2. 安装lxml pip install lxml-4.2.1-cp36-cp36m-win_amd64.whl 去https://www.lfd.uci.edu/~gohlke/ 阅读全文
posted @ 2018-05-14 10:38 听海8 阅读(822) 评论(0) 推荐(1)
摘要:Python3 response响应常用的方法 例子一:获取HTTP请求响应码 import urllib.request header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li 阅读全文
posted @ 2018-05-14 10:20 听海8 阅读(4363) 评论(0) 推荐(0)
摘要:Python3爬虫介绍 一.为什么要做爬虫 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、 阅读全文
posted @ 2018-05-14 10:15 听海8 阅读(2318) 评论(0) 推荐(0)
摘要:Python3 urllib.request库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib.request库。 urllib.request库 是 Python3 自带的模块(不需要下载, 阅读全文
posted @ 2018-05-14 10:10 听海8 阅读(1632) 评论(0) 推荐(0)