上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 28 下一页
摘要: 学习之前先要了解什么是慢日志,为什么要开启慢日志? MySQL的慢日志是mysql提供的一种日志记录。用来记录在MySQL运行的时候,响应超过阈值的语句。具体指运行时间超过long_query_time值的sql,就会被记录到慢日志中。long_query_time的值默认是10秒。默认的情况下,M 阅读全文
posted @ 2019-03-24 17:46 魏三斗 阅读(239) 评论(0) 推荐(0)
摘要: 1.什么是事务? 在现实生活中,我们往往会进行转账操作。转账可以分为两部分完成,转入和转出,只要两部分都完成了才算转账完成。在数据库中,这个过程是由两条sql语句来完成的, 如果任意一方的语句没有执行,会导致两个账号的资金不能同步。 为了防止这种情况的发生,MySQL引入了事务。所谓的事务就是针对数 阅读全文
posted @ 2019-03-18 10:48 魏三斗 阅读(467) 评论(0) 推荐(0)
摘要: 1.函数功能将一个数值进行格式化显示。 2. 如果参数format_spec未提供,则和调用str(value)效果相同,转换成字符串格式化。 3. 对于不同的类型,参数format_spec可提供的值都不一样。 阅读全文
posted @ 2019-03-12 21:51 魏三斗 阅读(477) 评论(0) 推荐(0)
摘要: 概念:通过爬虫检测某网站的更新情况,以便可以爬取最新的数据。 如何进行增量式的爬虫工作? 在发送请求之前判断这个url是不是被之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 在写入存储介质的时候,判断内容是不是已经在介质中存在 分析: 不难发现,其实增量爬取的核心是去重, 至于去重的操作在哪 阅读全文
posted @ 2019-03-05 21:57 魏三斗 阅读(262) 评论(1) 推荐(0)
摘要: 问题: 为什么原生的scrapy不能实现分布式? 调度器不能被共享 管道无法被共享 scrapy-redis组件的作用是什么? 提供了可以被共享的调度器和管道 调度器不能被共享 管道无法被共享 提供了可以被共享的调度器和管道 实现分布式爬虫的流程? 【需求】爬取抽屉网中的标题和作者 代码部分: ch 阅读全文
posted @ 2019-03-05 19:45 魏三斗 阅读(176) 评论(0) 推荐(0)
摘要: 作用:基于全栈数据的爬取。 首先创建项目 scrapy startproject choutiPro cd choutiPro scrapy genspider -t crawl chouti www.xxx.com scrapy startproject choutiPro cd choutiPr 阅读全文
posted @ 2019-03-05 17:15 魏三斗 阅读(262) 评论(0) 推荐(0)
摘要: 在配置文件中修改相关参数: 增加并发 默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志等级 在scrapy运行的时候,会输出大量的日志信息,为了减少cpu的使用率,可以设置lo 阅读全文
posted @ 2019-03-05 16:12 魏三斗 阅读(1465) 评论(0) 推荐(0)
摘要: 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取 阅读全文
posted @ 2019-03-04 20:27 魏三斗 阅读(510) 评论(0) 推荐(0)
摘要: 五大核心组件的工作流程 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么 阅读全文
posted @ 2019-03-04 17:43 魏三斗 阅读(486) 评论(0) 推荐(0)
摘要: 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: - 设置日志信息指定输出: 在settings.py配置文件中,加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LO 阅读全文
posted @ 2019-03-04 16:09 魏三斗 阅读(768) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 28 下一页