随笔分类 -  0.16--爬虫实战+CRM

爬虫-总结2
摘要:一. Requests模块 1. 简述爬虫的概念 2. 爬虫有几种分类,在使用场景中 主要有两种: 在编写爬虫时先下载到本地进行测试,然后再进行正规的验证 3. 简述robots协议的概念也作用 4. 什么是反爬机制和反反爬机制 (1)U-A校验模式 当你在家用浏览器上网的时候,每次发送请求时请求头 阅读全文
posted @ 2018-12-12 16:38 foremost 阅读(613) 评论(0) 推荐(0)
爬虫--scrapy+redis分布式爬取58同城北京全站租房数据
摘要:作业需求: 爬取北京全站租房信息 爬取全站用基于crawlspider建立爬虫文件 对北京出租下的70页信息进行爬取: 分析页码网页 https://bj.58.com/chuzu/pn2 bj代表北京 包括四种类型的房源:个人房源;经纪人;安选房源;品牌公寓 个人房源: 经纪人: 安选房源: 品牌 阅读全文
posted @ 2018-12-11 16:49 foremost 阅读(515) 评论(0) 推荐(0)
爬虫--总结
摘要:1.接触过几种爬虫模块 urllib,requests 2.robots协议是什么? requests模块没有使用硬性的语法对该协议进行生效 scrapy硬性的语法对该协议进行了生效 3、如何处理验证码: 云打码平台 打码兔 4、掌握几种数据解析的方式 正则,xpath,bs4 5、如何爬取动态加载 阅读全文
posted @ 2018-12-11 16:24 foremost 阅读(208) 评论(0) 推荐(0)
爬虫--Scrapy-基于RedisSpider实现的分布式爬虫
摘要:爬取网易新闻 需求:爬取的是基于文字的新闻数据(国内,国际,军事,航空) 先编写基于scrapycrawl 先创建工程 scrapy startproject 58Pro cd 58Pro 新建一个爬虫--基于一个scrapy scrapy genspider 58 www.xxx.com 先把基本 阅读全文
posted @ 2018-12-10 18:32 foremost 阅读(1127) 评论(0) 推荐(0)
爬虫--Scrapy-CrawlSpider&基于CrawlSpide的分布式爬虫
摘要:CrawlSpider 创建工程scrapy startproject crawlSpiderPro cd crawlSpiderPro 创建爬虫文件 scrapy genspider -t crawl chouti dig.chouti.com 基于scrapySpider爬虫文件的和基于spid 阅读全文
posted @ 2018-12-10 11:59 foremost 阅读(604) 评论(0) 推荐(0)
爬虫--Scrapy-参数等级和请求传参
摘要:日志等级 如何让终端显示错误信息 在settings.py中配置 请求传参 创建moviePro工程 scrapy startproject moviePro cd moviePro scrapy genspider movie www.id97.com 电影名称和类型在一页 电影的其他详情在另外一 阅读全文
posted @ 2018-12-09 21:44 foremost 阅读(2864) 评论(0) 推荐(0)
Scrapy框架--代理和cookie
摘要:如何发起post请求? 简单测试: 在爬虫文件中 在settings配置 然后执行: cookie:豆瓣网个人登录,获取该用户个人主页这个二级页面的页面数据。 先创建一个工程doubanPro cd 到创建的目录下 创建爬虫文件 1. 在命令行下 cd 进入工程所在文件夹 2.scrapy gens 阅读全文
posted @ 2018-12-09 17:27 foremost 阅读(300) 评论(0) 推荐(0)
爬虫--Scrapy-持久化存储操作2
摘要:1、管道的高级操作 将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。 qiubai.py pipelines.py 在settings配置 打开终端,先进入文件目录 先打开redis,mysql服务器再执行如下命令: 存本地: 存redis: 存mysql 测试成功 多个url 阅读全文
posted @ 2018-12-09 11:36 foremost 阅读(365) 评论(0) 推荐(0)
爬虫--Scrapy-持久化存储操作
摘要:总体概况 磁盘文件 基于终端指令 基于管道 爬虫文件代码: qiubai.py 1、将解析到的页面数据存储到items对象 在items.py 中封装两个属性对象 3、在管道文件中编写代码完成数据存储的操作 4、在配置文件settings.py中开启管道操作 在命令行执行程序 第三步有个bug每次调 阅读全文
posted @ 2018-12-07 21:03 foremost 阅读(807) 评论(0) 推荐(0)
爬虫--Scrapy框架课程介绍
摘要:Scrapy框架课程介绍: 一scrapy框架的简介和基础使用 a) 概念:为了爬取网站数据而编写的一款应用框架,出名,强大。所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板。(高性能的异步下载,解析,持久化……) b) 安装: i. linux mac os:pip install 阅读全文
posted @ 2018-12-06 19:03 foremost 阅读(407) 评论(0) 推荐(0)
动态爬取豆瓣电影中“更多”电影详情数据
摘要:动态爬取豆瓣电影中“更多”电影详情数据 开发中经验总结: 1、设置多个代理ip每次随机选取 2、在测试阶段建议先把数据下载到本地,在本地取保存的数据,避免被反爬处理,,导致因访问频繁无法进行数据处理 3、本次数据解析采用: 4、加深了对Beautiful Soup对象类型 Tag对象的理解 http 阅读全文
posted @ 2018-12-06 14:34 foremost 阅读(755) 评论(0) 推荐(0)
爬虫--selenuim和phantonJs处理网页动态加载数据的爬取
摘要:1、谷歌浏览器的使用 下载谷歌浏览器 安装谷歌访问助手 终于用上谷歌浏览器了。。。。。激动 问题:处理页面动态加载数据的爬取 -1.selenium -2.phantomJs 1.selenium 下载好后选择相应版本解压后粘贴到项目文件夹下 把谷歌浏览器设置成默认的浏览器 在jupyter下载模块 阅读全文
posted @ 2018-12-05 17:18 foremost 阅读(461) 评论(0) 推荐(0)
爬虫--数据解析方式
摘要:引言:回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而 阅读全文
posted @ 2018-12-04 19:39 foremost 阅读(537) 评论(0) 推荐(0)
爬虫--requests模块高级(代理和cookie操作)
摘要:代理和cookie操作 代理和cookie操作 一.基于requests模块的cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: cookie会话跟踪技术, 阅读全文
posted @ 2018-12-04 12:25 foremost 阅读(336) 评论(0) 推荐(0)
爬虫--requests模块学习
摘要:requests模块 - 基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用 阅读全文
posted @ 2018-12-03 15:46 foremost 阅读(412) 评论(0) 推荐(0)
爬虫--urllib模块
摘要:一.urllib库 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 使用流程: 指定url 基于u 阅读全文
posted @ 2018-12-03 14:09 foremost 阅读(352) 评论(0) 推荐(0)
爬虫介绍+Jupyter Notebook
摘要:什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。java 阅读全文
posted @ 2018-12-03 10:41 foremost 阅读(4398) 评论(0) 推荐(0)