爬虫 - 随笔分类 - robertx

scrapy基本操作流程

摘要：基本配置与命令 1.安装 win系统下有5个步骤 2.创建 - 创建普通爬虫文件 - 创建crawlspider的爬虫文件 - 一般注释掉 allowed_domains = ['www.xxx.com'] 3.配置项目中间件配置,管道配置时将注释取消即可 4.执行项目应用 1.持久化本地存储阅读全文

posted @ 2019-06-05 21:45 robertx 阅读(1248) 评论(0) 推荐(0)

scrapy 递归发送请求，请求附带参数，手动发送请求，设置ua与代理池

摘要：scrapy递归爬取网页爬取网易新闻的五个分类下的标题和正文,结合selenium 结合selenium,在middlewares.py文件中 scrapy请求传参 1.爬取www.id97.com电影网，将一级页面中的电影名称，类型，评分一级二级页面中的上映时间，导演，片长进行爬取。爬虫文件: 阅读全文

posted @ 2019-06-03 22:23 robertx 阅读(1347) 评论(0) 推荐(0)

标准的异步协程http请求的模板,asyncio, aiohttp

只有注册用户登录后才能阅读该文。

posted @ 2019-05-31 21:10 robertx 阅读(9) 评论(0) 推荐(0)

scrapy框架持久化存储

摘要：数据持久化存储基于终端指令的持久化存储：只可以将parse方法的返回值进行持久化存储 scrapy crawl SpiderName -o ./file 基于管道的持久化存储的编码流程：数据解析在item类中声明相关的属性用于存储解析到的数据将解析到的数据存储封装到item类型的对象中将阅读全文

posted @ 2019-05-31 21:05 robertx 阅读(390) 评论(0) 推荐(0)

scrapy基础

摘要：恢复内容开始 scrapy Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。 1.安装环境 MAC下: Win系统下: 2.执行流程在terminal中输入指令: 创建一个工程: 创建爬虫文件: 执行项目: 保阅读全文

posted @ 2019-05-31 16:02 robertx 阅读(306) 评论(0) 推荐(0)

phantomJS,谷歌无头浏览器, 模拟登陆qq空间

摘要：无头浏览器就是不用弹出可视化界面我们主要用的就是谷歌无头浏览器谷歌无头浏览器由于PhantomJs最近已经停止了更新和维护，所以推荐大家可以使用谷歌的无头浏览器，是一款无界面的谷歌浏览器。示例: from selenium import webdriver from selenium.web 阅读全文

posted @ 2019-05-30 19:19 robertx 阅读(768) 评论(0) 推荐(0)

python爬虫--selenium

摘要：-浏览器创建 -元素定位 -节点交互 -selenium相关的动作行为制定 -动作链 -模拟JavaScript -获取页面源码数据 -前进和后退 -cookie处理 -异常处理阅读全文

posted @ 2019-05-30 19:04 robertx 阅读(4436) 评论(0) 推荐(0)

爬虫的高效率解决方式--单线程+异步协程, 线程池爬虫

摘要：标准的异步协程http请求的模板,asyncio, aiohttp import asyncio import aiohttp #在实现该函数的时候，其函数实现内部不可以出现非异步模块的代码 async def request(url): async with aiohttp.ClientSessi 阅读全文

posted @ 2019-05-30 18:07 robertx 阅读(630) 评论(0) 推荐(0)

python爬虫 requests模块高级操作, 代理,模拟登录

摘要：requests模块高级操作代理相关的操作验证码的识别 cookie相关操作模拟登录一. 代理操作什么是代理? 就是代理服务器提供代理的网站: 快代理西祠代理 goubanjia 代理的匿名度透明代理: 对方服务器可以知道你使用了代理,并且也知道你的真实ip 匿名代理: 对方服务器可阅读全文

posted @ 2019-05-29 15:42 robertx 阅读(3320) 评论(0) 推荐(0)

解决爬虫response.text后中文的乱码问题

摘要：有两种解决方式 1.使用response.encoding = 'utf 8' 2.使用.encode('iso 8859 1').decode('gbk') 爬取美女壁纸缩略图并解决标题乱码问题阅读全文

posted @ 2019-05-28 22:48 robertx 阅读(3008) 评论(0) 推荐(1)

爬虫的数据解析, 正则 ,bs ,xpath

摘要：爬虫的数据解析两种爬取图片的方法第一种: 使用with open 保存为文件第二种: 使用urllib模块数据解析常用的python数据解析有四种方式 : 正则 xpath bs4 pyquery 数据解析的原理：标签的定位提取标签中存储的文本数据或者标签属性中存储的数据 1.正则解析阅读全文

posted @ 2019-05-28 22:42 robertx 阅读(348) 评论(0) 推荐(0)

python爬虫--requests模块

摘要：requests模块安装 : 作用：就是用来模拟浏览器上网的。特点：简单，高效其他的爬虫模块(old): urllib模块一. 使用 requests模块的使用流程：指定url 发起请求获取响应数据持久化存储 1.get请求使用处理get请求的参数需求：网页采集器反爬机制：UA检阅读全文

posted @ 2019-05-27 15:25 robertx 阅读(233) 评论(0) 推荐(0)

DESOLATE.X

———— 孑然弗伦，洗然无尘。不成乎名，遁世无闷

随笔分类 - 爬虫

公告