12 2018 档案
摘要:在编程的过程中,我们经常会重复性的写了很多的代码,比如一个页面的框架部分,这样我又多少个页面就得写上多少次,这样既不好维护,也不够高效,所以我们引出了html的模板继承部分。 1、写好一个html文件。 2、下面有个新的html文件需要继承上面这个html。 直接在这个新的html文件的最顶端,写上
阅读全文
摘要:1.{% load staticfiles %} 2.{% load rbac %} {% menu_html request %} 这部分就会变成用inclusion_tag生成的menu_html 左侧菜单的生成templatetags目录下的rbac.py 功能;生成页面中的左侧菜单用incl
阅读全文
摘要:作者:SlashBoyMr_wang
链接:https://www.jianshu.com/p/b23c77852e33
來源:简书
阅读全文
摘要:https://www.cnblogs.com/PythonHomePage/p/7634394.html
阅读全文
摘要:1.如果在centos里新创建的工程,需要对templates在settings里面配置路径 settings.py static静态文件 需在nginx配置里添加路径(只在settings.py 里配置无效)
阅读全文
摘要:1.概念:多台机器上可以执行同一个爬虫程序,实现网站数据的分布爬取。 2.原生的scrapy 是不可以实现分布式爬虫? a) 调度器无法共享 b) 管道无法共享 3. scrapy-redis 组件:专门为scrapy 开发的一套组件。该组件可以让scrapy 实现分布式 a) 下载:pip ins
阅读全文
摘要:服务器配置环境centos7 python3: 见web标签中安装方法 1.安装各类基础模块 (为centos系统增加编译功能) (安装这些模块都是为了成功编译安装python3,防止出现各种异常) (安装这个模块是为了让uwsig支持使用“-x"选项,能通过xml文件启动项目) 2.给python
阅读全文
摘要:rules: 有经验的同学都知道它是一个列表,存储的元素时Rule类的实例,其中每一个实例都定义了一种采集站点的行为。如果有多个rule都匹配同一个链接,那么位置下标最小的一个rule将会被使用。 __init__: 在源码中可以看到,它主要就是执行了_compile_rules方法,这边暂时不讲。
阅读全文
摘要:http://www.runoob.com/redis/redis-install.html
阅读全文
摘要:创建基于CrawlSpider的爬虫文件 scrapy genspider -t crawl 爬虫名称 链接 注意follow参数 例1:follow = False spider/chouti.py 执行结果 : 没有允许链接提取器继续在提取到的链接中继续作用 例2: follow = True
阅读全文
摘要:以爬取某电影网的电影列表以及子链接中的信息为例子 spiders/parndemo.py pipelines.py settings.py items.py
阅读全文
摘要:日志等级(种类): ERROR:错误 WARNING: 警告 INFO:一般信息 DEBUG:调试信息(默认) 指定输入某一中日志信息: settings.py中添加LOG_LEVEL = "ERROR" 将日志信息存储到制定文件中,而并非显示在终端里: settings.py: LOG_FILE
阅读全文
摘要:下载中间件作用: 拦截请求,可以将请求的ip进行更换 流程: 1.下载中间件类的自制定 a) object b) 重写process_request(self, request, spider)的方法 2.配置文件中进行下载中间价的开启 middlewares.py settings.py里开启中间
阅读全文
摘要:import scrapy class CookiedemoSpider(scrapy.Spider): name = 'cookiedemo' # allowed_domains = ['www.douban.com'] start_urls = ['https://www.douban.com/accounts/login/'] def parse(se...
阅读全文
摘要:scrapy发起post请求的两种方式 一定要对start_requests方法进行重写 1.Request方法中给method属性复制成post 2.FormRequest()进行post请求的发送 方法1(不建议使用): 方法2(推荐用scrapy.FormRequest):
阅读全文
摘要:需求:将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。 1.需要在管道文件中编写对应平台的管道类 2.在配置文件中对自定义的管道类进行生效操作(在pipelines里面定义的类,加进settings.py里面 pipelines对应的里面,后面数字大小无所谓) pipeline
阅读全文
摘要:持久化存储操作: a.磁盘文件 a) 基于终端指令 i. 保证parse方法返回一个可迭代类型的对象(存储解析到的页面内容) ii. 使用终端指令完成数据存储到指定磁盘文件的操作 1. scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀 如(test.csv) b)基于管道 i. item
阅读全文
摘要:1.创建一个工程: scrapy startproject 工程名称 1. 目录结构: 2.在工程目录下创建一个爬虫文件 1.cd 工程 2. scrapy genspider 爬虫文件的名称 起始的url 3.对应的文件中编写爬虫程序来完成爬虫的相关操作 4.配置文件的编写 修改 将setting
阅读全文
摘要:在爬虫递归操作被拒绝时,可采取需要爬取的页面刷新捕捉Network里面的请求包,拿取requestheaders全部写入即可
阅读全文
摘要:import requests import xlwt from bs4 import BeautifulSoup from threading import Thread # 725 1160 def main(): workbook = xlwt.Workbook() sheet1 = workbook.add_sheet('test', cell_overwrite_ok=...
阅读全文
摘要:注意:sqlite3在execute("sql语句") sqlite3只支持?,:=占位符 不支持%s 但是sql语句作为变量execute(sql)里只可以用%s作占位符,等号的另一遍要加a = 'b' 模糊查询 sql语句like用法 显示结果为'%字段%', 上述查询结果为关键词里包含字段的
阅读全文
摘要:反爬机制:网站检查请求的UA, 如果发现UA是爬虫程序,则拒绝提供网站数据 User-Agent(UA) : 请求载体的身份标识 反反爬机制:伪装爬虫程序请求的UA
阅读全文
摘要:1.接口excel 2. sqlite数据库写入excel、导出excel数据 重点:(1)注意pycharm中的database可视化管理,必须是DDL的数据库才可以与代码联合使用 (2) 建议以sql原生语句的形式去代码创建表跟数据库 (3) sqlite3 只支持? 和:啥 这2个占位符格式,
阅读全文

浙公网安备 33010602011771号