魏三斗 - 博客园

2019年3月24日

摘要：学习之前先要了解什么是慢日志，为什么要开启慢日志？ MySQL的慢日志是mysql提供的一种日志记录。用来记录在MySQL运行的时候，响应超过阈值的语句。具体指运行时间超过long_query_time值的sql，就会被记录到慢日志中。long_query_time的值默认是10秒。默认的情况下，M 阅读全文

posted @ 2019-03-24 17:46 魏三斗阅读(239) 评论(0) 推荐(0)

2019年3月18日

MySQL事务以及特征

摘要： 1.什么是事务？在现实生活中，我们往往会进行转账操作。转账可以分为两部分完成，转入和转出，只要两部分都完成了才算转账完成。在数据库中，这个过程是由两条sql语句来完成的，如果任意一方的语句没有执行，会导致两个账号的资金不能同步。为了防止这种情况的发生，MySQL引入了事务。所谓的事务就是针对数阅读全文

posted @ 2019-03-18 10:48 魏三斗阅读(467) 评论(0) 推荐(0)

2019年3月12日

formant

摘要： 1.函数功能将一个数值进行格式化显示。 2. 如果参数format_spec未提供，则和调用str(value)效果相同，转换成字符串格式化。 3. 对于不同的类型，参数format_spec可提供的值都不一样。阅读全文

posted @ 2019-03-12 21:51 魏三斗阅读(477) 评论(0) 推荐(0)

2019年3月5日

增量式爬虫

摘要：概念：通过爬虫检测某网站的更新情况，以便可以爬取最新的数据。如何进行增量式的爬虫工作？在发送请求之前判断这个url是不是被之前爬取过在解析内容后判断这部分内容是不是之前爬取过在写入存储介质的时候，判断内容是不是已经在介质中存在分析：不难发现，其实增量爬取的核心是去重，至于去重的操作在哪阅读全文

posted @ 2019-03-05 21:57 魏三斗阅读(262) 评论(1) 推荐(0)

分布式爬虫

摘要：问题：为什么原生的scrapy不能实现分布式？调度器不能被共享管道无法被共享 scrapy-redis组件的作用是什么？提供了可以被共享的调度器和管道调度器不能被共享管道无法被共享提供了可以被共享的调度器和管道实现分布式爬虫的流程？【需求】爬取抽屉网中的标题和作者代码部分： ch 阅读全文

posted @ 2019-03-05 19:45 魏三斗阅读(176) 评论(0) 推荐(0)

CrawlSpider

摘要：作用：基于全栈数据的爬取。首先创建项目 scrapy startproject choutiPro cd choutiPro scrapy genspider -t crawl chouti www.xxx.com scrapy startproject choutiPro cd choutiPr 阅读全文

posted @ 2019-03-05 17:15 魏三斗阅读(262) 评论(0) 推荐(0)

如何提升scrapy爬取数据的效率

摘要：在配置文件中修改相关参数：增加并发默认的scrapy开启的并发线程为32个，可以适当的进行增加，再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志等级在scrapy运行的时候，会输出大量的日志信息，为了减少cpu的使用率，可以设置lo 阅读全文

posted @ 2019-03-05 16:12 魏三斗阅读(1465) 评论(0) 推荐(0)

2019年3月4日

scrapy中的selenium

摘要：引入在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取阅读全文

posted @ 2019-03-04 20:27 魏三斗阅读(510) 评论(0) 推荐(0)

scrapy五大核心组件和中间件以及UA池和代理池

摘要：五大核心组件的工作流程引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么阅读全文

posted @ 2019-03-04 17:43 魏三斗阅读(486) 评论(0) 推荐(0)

scrapy处理post请求的传参和日志等级

摘要：一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类： - 设置日志信息指定输出：在settings.py配置文件中，加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LO 阅读全文

posted @ 2019-03-04 16:09 魏三斗阅读(768) 评论(0) 推荐(0)

Distance

努力成为更好的人！

公告