摘要:一、增量式爬虫:检测网站数据更新情况,只爬取网站最近更新出来的数据。 核心思路:将爬取过的详情url存储到redis的set集合。 爬虫文件: # -- coding: utf-8 -- import scrapy from scrapy.linkextractors import LinkExtr
阅读全文
摘要:一、目标网址 http://wz.sun0769.com/political/index/politicsNewest 二、scrapy创建项目 scrapy startproject SunPro cd SunPro scrapy genspider -t crawl sun www.xxx.co
阅读全文
摘要:一、通过网易新闻首页解析出各板块对应的url
阅读全文
摘要:我们知道,目前的计算机都采用的是图灵机架构,其本质就是用一条无限长的纸带,对应今天的存储器。随后在工程学的推演中,逐渐出现了寄存器、易失性存储器(内存)以及永久性存储器(硬盘)等产品。由于不同的存储器,其速度越快,单位价格也就越昂贵,因此,妥善利用好每一寸告诉存储器的空间,永远是系统设计的一个核心。
阅读全文
摘要:一、xpath表达式不可以出现tbody标签
阅读全文
摘要:为什么要用Cookies池目标网站需要登录才能爬取,例如新浪微博。爬取过程中,如果请求频率过高,会导致封号。这就需要维护多个账号的Cookies池实现大规模爬取。Cookies池的要求自动登录更新定时验证筛选提供外部接口Cookies池的架构 首先,需要有一个账号队列,把一些账号密码存到数据库里,生
阅读全文
摘要:单例模式 单例模式就是确保一个类只有一个实例.当你希望整个系统中,某个类只有一个实例时,单例模式就派上了用场.比如,某个服务器的配置信息存在在一个文件中,客户端通过AppConfig类来读取配置文件的信息.如果程序的运行的过程中,很多地方都会用到配置文件信息,则就需要创建很多的AppConfig实例
阅读全文
摘要:from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key
阅读全文
摘要:from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.key
阅读全文
摘要:一、 Python 基本功1、简述Python 的特点和优点Python 是一门开源的解释性语言,相比 Java C++ 等语言,Python 具有动态特性,非常灵活。 2、Python 有哪些数据类型?Python 有 6 种内置的数据类型,其中不可变数据类型是Number(数字), String
阅读全文
摘要:在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中,会动态将伪属性替换成src属性,完成图片的加载。爬虫是使用伪属性解析。 ImagesPipeline: class
阅读全文
摘要:docker load docker images docker save
阅读全文
摘要:一、基础镜像 参考《精通Python网络爬虫》机械工业出版社 二、实现中心节点并配置Redis与MySql docker run -tid --name ceter c354 #创建中心节点 docker ps -a #查看详情 docker attch 2eaf #进入中心节点 cat /etc/
阅读全文
摘要:一、csv文件存储 class CsvPipeline(): def open_spider(self,spider): self.file=open('filename.csv','wb') self.csv_exporter=CsvItemExporter(self.file) self.csv
阅读全文
摘要:分布式爬虫默认八数据存储在redis中,可以将数据转存到Monogdb或Mysql中,从而降低内存消耗。 from redis import Redisfrom pymongo import MongoClientimport jsondef redis_to_mongodb(): redis_cl
阅读全文
摘要:redis-cli quit set setnx setex mset get incr append
阅读全文