随笔分类 -  爬虫

摘要:基本配置与命令 1.安装 win系统下有5个步骤 2.创建 - 创建普通爬虫文件 - 创建crawlspider的爬虫文件 - 一般注释掉 allowed_domains = ['www.xxx.com'] 3.配置项目 中间件配置,管道配置时将注释取消即可 4.执行项目 应用 1.持久化本地存储 阅读全文
posted @ 2019-06-05 21:45 robertx 阅读(1248) 评论(0) 推荐(0)
摘要:scrapy递归爬取网页 爬取网易新闻的五个分类下的标题和正文,结合selenium 结合selenium,在middlewares.py文件中 scrapy请求传参 1.爬取www.id97.com电影网,将一级页面中的电影名称,类型,评分一级二级页面中的上映时间,导演,片长进行爬取。 爬虫文件: 阅读全文
posted @ 2019-06-03 22:23 robertx 阅读(1347) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2019-05-31 21:10 robertx 阅读(9) 评论(0) 推荐(0)
摘要:数据持久化存储 基于终端指令的持久化存储: 只可以将parse方法的返回值进行持久化存储 scrapy crawl SpiderName -o ./file 基于管道的持久化存储的编码流程: 数据解析 在item类中声明相关的属性用于存储解析到的数据 将解析到的数据存储封装到item类型的对象中 将 阅读全文
posted @ 2019-05-31 21:05 robertx 阅读(390) 评论(0) 推荐(0)
摘要:恢复内容开始 scrapy Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 1.安装环境 MAC下: Win系统下: 2.执行流程 在terminal中输入指令: 创建一个工程: 创建爬虫文件: 执行项目: 保 阅读全文
posted @ 2019-05-31 16:02 robertx 阅读(306) 评论(0) 推荐(0)
摘要:无头浏览器就是不用弹出可视化界面 我们主要用的就是谷歌无头浏览器 谷歌无头浏览器 由于PhantomJs最近已经停止了更新和维护,所以推荐大家可以使用谷歌的无头浏览器,是一款无界面的谷歌浏览器。 示例: from selenium import webdriver from selenium.web 阅读全文
posted @ 2019-05-30 19:19 robertx 阅读(768) 评论(0) 推荐(0)
摘要:-浏览器创建 -元素定位 -节点交互 -selenium相关的动作行为制定 -动作链 -模拟JavaScript -获取页面源码数据 -前进和后退 -cookie处理 -异常处理 阅读全文
posted @ 2019-05-30 19:04 robertx 阅读(4436) 评论(0) 推荐(0)
摘要:标准的异步协程http请求的模板,asyncio, aiohttp import asyncio import aiohttp #在实现该函数的时候,其函数实现内部不可以出现非异步模块的代码 async def request(url): async with aiohttp.ClientSessi 阅读全文
posted @ 2019-05-30 18:07 robertx 阅读(630) 评论(0) 推荐(0)
摘要:requests模块高级操作 代理相关的操作 验证码的识别 cookie相关操作 模拟登录 一. 代理操作 什么是代理? 就是代理服务器 提供代理的网站: 快代理 西祠代理 goubanjia 代理的匿名度 透明代理: 对方服务器可以知道你使用了代理,并且也知道你的真实ip 匿名代理: 对方服务器可 阅读全文
posted @ 2019-05-29 15:42 robertx 阅读(3320) 评论(0) 推荐(0)
摘要:有两种解决方式 1.使用response.encoding = 'utf 8' 2.使用.encode('iso 8859 1').decode('gbk') 爬取美女壁纸缩略图并解决标题乱码问题 阅读全文
posted @ 2019-05-28 22:48 robertx 阅读(3008) 评论(0) 推荐(1)
摘要:爬虫的数据解析 两种爬取图片的方法 第一种: 使用with open 保存为文件 第二种: 使用urllib模块 数据解析 常用的python数据解析有四种方式 : 正则 xpath bs4 pyquery 数据解析的原理: 标签的定位 提取标签中存储的文本数据或者标签属性中存储的数据 1.正则解析 阅读全文
posted @ 2019-05-28 22:42 robertx 阅读(348) 评论(0) 推荐(0)
摘要:requests模块 安装 : 作用:就是用来模拟浏览器上网的。 特点:简单,高效 其他的爬虫模块(old): urllib模块 一. 使用 requests模块的使用流程: 指定url 发起请求 获取响应数据 持久化存储 1.get请求使用 处理get请求的参数 需求:网页采集器 反爬机制:UA检 阅读全文
posted @ 2019-05-27 15:25 robertx 阅读(233) 评论(0) 推荐(0)
摘要:Robots协议: ​ 每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。而搜索引擎则会按照Robots协议给与自己的权限来进行抓取。Robots协议已经成为所有搜索引擎必须遵守的国际惯例。 ​ 例:淘宝的robots.txt查看地址为 什么 阅读全文
posted @ 2019-05-27 15:15 robertx 阅读(164) 评论(0) 推荐(0)