会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Distance
努力成为更好的人!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
8
9
10
11
12
13
14
15
16
···
28
下一页
2019年3月24日
MySQL的慢日志
摘要: 学习之前先要了解什么是慢日志,为什么要开启慢日志? MySQL的慢日志是mysql提供的一种日志记录。用来记录在MySQL运行的时候,响应超过阈值的语句。具体指运行时间超过long_query_time值的sql,就会被记录到慢日志中。long_query_time的值默认是10秒。默认的情况下,M
阅读全文
posted @ 2019-03-24 17:46 魏三斗
阅读(239)
评论(0)
推荐(0)
2019年3月18日
MySQL事务以及特征
摘要: 1.什么是事务? 在现实生活中,我们往往会进行转账操作。转账可以分为两部分完成,转入和转出,只要两部分都完成了才算转账完成。在数据库中,这个过程是由两条sql语句来完成的, 如果任意一方的语句没有执行,会导致两个账号的资金不能同步。 为了防止这种情况的发生,MySQL引入了事务。所谓的事务就是针对数
阅读全文
posted @ 2019-03-18 10:48 魏三斗
阅读(467)
评论(0)
推荐(0)
2019年3月12日
formant
摘要: 1.函数功能将一个数值进行格式化显示。 2. 如果参数format_spec未提供,则和调用str(value)效果相同,转换成字符串格式化。 3. 对于不同的类型,参数format_spec可提供的值都不一样。
阅读全文
posted @ 2019-03-12 21:51 魏三斗
阅读(477)
评论(0)
推荐(0)
2019年3月5日
增量式爬虫
摘要: 概念:通过爬虫检测某网站的更新情况,以便可以爬取最新的数据。 如何进行增量式的爬虫工作? 在发送请求之前判断这个url是不是被之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 在写入存储介质的时候,判断内容是不是已经在介质中存在 分析: 不难发现,其实增量爬取的核心是去重, 至于去重的操作在哪
阅读全文
posted @ 2019-03-05 21:57 魏三斗
阅读(262)
评论(1)
推荐(0)
分布式爬虫
摘要: 问题: 为什么原生的scrapy不能实现分布式? 调度器不能被共享 管道无法被共享 scrapy-redis组件的作用是什么? 提供了可以被共享的调度器和管道 调度器不能被共享 管道无法被共享 提供了可以被共享的调度器和管道 实现分布式爬虫的流程? 【需求】爬取抽屉网中的标题和作者 代码部分: ch
阅读全文
posted @ 2019-03-05 19:45 魏三斗
阅读(176)
评论(0)
推荐(0)
CrawlSpider
摘要: 作用:基于全栈数据的爬取。 首先创建项目 scrapy startproject choutiPro cd choutiPro scrapy genspider -t crawl chouti www.xxx.com scrapy startproject choutiPro cd choutiPr
阅读全文
posted @ 2019-03-05 17:15 魏三斗
阅读(262)
评论(0)
推荐(0)
如何提升scrapy爬取数据的效率
摘要: 在配置文件中修改相关参数: 增加并发 默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志等级 在scrapy运行的时候,会输出大量的日志信息,为了减少cpu的使用率,可以设置lo
阅读全文
posted @ 2019-03-05 16:12 魏三斗
阅读(1465)
评论(0)
推荐(0)
2019年3月4日
scrapy中的selenium
摘要: 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取
阅读全文
posted @ 2019-03-04 20:27 魏三斗
阅读(510)
评论(0)
推荐(0)
scrapy五大核心组件和中间件以及UA池和代理池
摘要: 五大核心组件的工作流程 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么
阅读全文
posted @ 2019-03-04 17:43 魏三斗
阅读(486)
评论(0)
推荐(0)
scrapy处理post请求的传参和日志等级
摘要: 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: - 设置日志信息指定输出: 在settings.py配置文件中,加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LO
阅读全文
posted @ 2019-03-04 16:09 魏三斗
阅读(768)
评论(0)
推荐(0)
上一页
1
···
8
9
10
11
12
13
14
15
16
···
28
下一页
公告