上一页 1 ··· 33 34 35 36 37 38 39 40 41 ··· 49 下一页
摘要: 一.scrapy框架处理 1.分页处理 以爬取亚马逊为例 爬虫文件.py 2.mongodb持久化储存以及from_crawl的使用 pipelines.py settings.py # -*- coding: utf-8 -*- # Scrapy settings for Amazon proje 阅读全文
posted @ 2019-03-07 23:30 阿布_alone 阅读(572) 评论(0) 推荐(0)
摘要: 一.问题导入 scrapy能否实现分布式爬虫? 因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法共享同一个管道) 阅读全文
posted @ 2019-03-07 11:09 阿布_alone 阅读(428) 评论(0) 推荐(0)
摘要: 一.在python3中操作mongodb 1.连接条件 安装好pymongo库 启动mongodb的服务端(如果是前台启动后就不关闭窗口,窗口关闭后服务端也会跟着关闭) 3.使用 二.爬取腾讯招聘 爬虫文件 # -*- coding: utf-8 -*- import scrapy from Ten 阅读全文
posted @ 2019-03-06 21:41 阿布_alone 阅读(408) 评论(0) 推荐(0)
摘要: 一.UA池:User-Agent池 - 作用:尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程: 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件 代码展示: 二.代理池 - 作用:尽可能多的将scrapy工 阅读全文
posted @ 2019-03-05 23:54 阿布_alone 阅读(1561) 评论(0) 推荐(0)
摘要: 1. 进入 DOS窗口 2. 在进入Redis的安装目录 3. 输入:redis-server --service-install redis.windows.conf --loglevel verbose ( 安装redis服务 ) 4. 输入:redis-server --service-sta 阅读全文
posted @ 2019-03-05 11:43 阿布_alone 阅读(1577) 评论(0) 推荐(0)
摘要: 一.mongodb简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bso 阅读全文
posted @ 2019-03-04 21:37 阿布_alone 阅读(1201) 评论(0) 推荐(0)
摘要: 一.下载 二.安装 1.自定义安装路径 2.取消install mongoDB compass,否则可能要很长时间都一直在执行安装,MongoDB Compass 是一个图形界面管理工具,我们可以在后面自己到官网下载安装,下载地址:https://www.mongodb.com/download-c 阅读全文
posted @ 2019-03-04 16:02 阿布_alone 阅读(515) 评论(0) 推荐(0)
摘要: 一.什么是Fiddler? 二.手机APP抓包设置 1. Fiddler设置 打开Fiddler软件,打开工具的设置。(Fiddler软件菜单栏:Tools->Options) 在HTTPS中设置如下: 2.在Connections中设置如下,这里使用默认8888端口,当然也可以自己更改,但是注意不 阅读全文
posted @ 2019-03-03 10:49 阿布_alone 阅读(303) 评论(0) 推荐(0)
摘要: 一.CrawlSpider简介 如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 一.简介 阅读全文
posted @ 2019-03-02 23:05 阿布_alone 阅读(231) 评论(0) 推荐(0)
摘要: 一.Scrapy的日志等级 1.配置 - 设置日志信息指定输出: 在settings.py配置文件中,加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储,设置后终端不显示日志内容 2.使用 3.扩展,在普通程序中 阅读全文
posted @ 2019-03-02 19:07 阿布_alone 阅读(1259) 评论(0) 推荐(0)
上一页 1 ··· 33 34 35 36 37 38 39 40 41 ··· 49 下一页
TOP