2018 年 12月随笔档案 - Corey0606

django html 模板继承（下）加精

摘要：在编程的过程中，我们经常会重复性的写了很多的代码，比如一个页面的框架部分，这样我又多少个页面就得写上多少次，这样既不好维护，也不够高效，所以我们引出了html的模板继承部分。 1、写好一个html文件。 2、下面有个新的html文件需要继承上面这个html。直接在这个新的html文件的最顶端，写上阅读全文

posted @ 2018-12-27 17:30 Corey0606 阅读(839) 评论(0) 推荐(0)

django页面之间的前端模板继承或者引入详解（上）

摘要：1.{% load staticfiles %} 2.{% load rbac %} {% menu_html request %} 这部分就会变成用inclusion_tag生成的menu_html 左侧菜单的生成templatetags目录下的rbac.py 功能；生成页面中的左侧菜单用incl 阅读全文

posted @ 2018-12-27 17:22 Corey0606 阅读(1260) 评论(0) 推荐(0)

inclusion_tag 重复页面加载显示模板

摘要：作者：SlashBoyMr_wang 链接：https://www.jianshu.com/p/b23c77852e33 來源：简书阅读全文

posted @ 2018-12-27 15:52 Corey0606 阅读(326) 评论(0) 推荐(0)

django ForeignKey ManyToManyField OneToOneField

摘要：https://www.cnblogs.com/PythonHomePage/p/7634394.html 阅读全文

posted @ 2018-12-25 10:16 Corey0606 阅读(81) 评论(0) 推荐(0)

django建站的注意点

摘要：1.如果在centos里新创建的工程，需要对templates在settings里面配置路径 settings.py static静态文件需在nginx配置里添加路径（只在settings.py 里配置无效）阅读全文

posted @ 2018-12-24 17:28 Corey0606 阅读(116) 评论(0) 推荐(0)

分布式爬虫基于scrapy

摘要：1.概念：多台机器上可以执行同一个爬虫程序，实现网站数据的分布爬取。 2.原生的scrapy 是不可以实现分布式爬虫？ a) 调度器无法共享 b) 管道无法共享 3. scrapy-redis 组件：专门为scrapy 开发的一套组件。该组件可以让scrapy 实现分布式 a) 下载：pip ins 阅读全文

posted @ 2018-12-24 17:21 Corey0606 阅读(222) 评论(0) 推荐(0)

nginx wsgi django 建站配置最终版

摘要：服务器配置环境centos7 python3: 见web标签中安装方法 1.安装各类基础模块（为centos系统增加编译功能）（安装这些模块都是为了成功编译安装python3，防止出现各种异常）（安装这个模块是为了让uwsig支持使用“-x"选项，能通过xml文件启动项目） 2.给python 阅读全文

posted @ 2018-12-21 13:52 Corey0606 阅读(386) 评论(0) 推荐(0)

scrapy crawlspider内置方法源码

摘要：rules：有经验的同学都知道它是一个列表，存储的元素时Rule类的实例，其中每一个实例都定义了一种采集站点的行为。如果有多个rule都匹配同一个链接，那么位置下标最小的一个rule将会被使用。 __init__：在源码中可以看到，它主要就是执行了_compile_rules方法，这边暂时不讲。阅读全文

posted @ 2018-12-21 09:24 Corey0606 阅读(351) 评论(0) 推荐(0)

redis数据的安装以及基本使用方法

摘要：http://www.runoob.com/redis/redis-install.html 阅读全文

posted @ 2018-12-20 11:10 Corey0606 阅读(100) 评论(0) 推荐(0)

CrawlSpider 用法（页面链接提取解析例如：下一页）

摘要：创建基于CrawlSpider的爬虫文件 scrapy genspider -t crawl 爬虫名称链接注意follow参数例1：follow = False spider/chouti.py 执行结果：没有允许链接提取器继续在提取到的链接中继续作用例2： follow = True 阅读全文

posted @ 2018-12-19 17:47 Corey0606 阅读(232) 评论(0) 推荐(0)

请求传参

摘要：以爬取某电影网的电影列表以及子链接中的信息为例子 spiders/parndemo.py pipelines.py settings.py items.py 阅读全文

posted @ 2018-12-19 16:44 Corey0606 阅读(288) 评论(0) 推荐(0)

日志等级

摘要：日志等级（种类）： ERROR：错误 WARNING: 警告 INFO：一般信息 DEBUG:调试信息（默认）指定输入某一中日志信息： settings.py中添加LOG_LEVEL = "ERROR" 将日志信息存储到制定文件中，而并非显示在终端里： settings.py: LOG_FILE 阅读全文

posted @ 2018-12-19 16:36 Corey0606 阅读(262) 评论(0) 推荐(0)

代理操作

摘要：下载中间件作用：拦截请求，可以将请求的ip进行更换流程： 1.下载中间件类的自制定 a) object b) 重写process_request(self, request, spider)的方法 2.配置文件中进行下载中间价的开启 middlewares.py settings.py里开启中间阅读全文

posted @ 2018-12-19 16:27 Corey0606 阅读(131) 评论(0) 推荐(0)

COOKIE操作

摘要：import scrapy class CookiedemoSpider(scrapy.Spider): name = 'cookiedemo' # allowed_domains = ['www.douban.com'] start_urls = ['https://www.douban.com/accounts/login/'] def parse(se... 阅读全文

posted @ 2018-12-19 16:17 Corey0606 阅读(124) 评论(0) 推荐(0)

发起post请求

摘要：scrapy发起post请求的两种方式一定要对start_requests方法进行重写 1.Request方法中给method属性复制成post 2.FormRequest()进行post请求的发送方法1(不建议使用): 方法2（推荐用scrapy.FormRequest）：阅读全文

posted @ 2018-12-19 16:13 Corey0606 阅读(517) 评论(0) 推荐(0)

爬取多个url

摘要：用yield callback 阅读全文

posted @ 2018-12-14 16:12 Corey0606 阅读(512) 评论(0) 推荐(0)

管道高级操作

摘要：需求：将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。 1.需要在管道文件中编写对应平台的管道类 2.在配置文件中对自定义的管道类进行生效操作（在pipelines里面定义的类，加进settings.py里面 pipelines对应的里面，后面数字大小无所谓） pipeline 阅读全文

posted @ 2018-12-14 11:37 Corey0606 阅读(201) 评论(0) 推荐(0)

scrapy持久化存储

摘要：持久化存储操作： a.磁盘文件 a) 基于终端指令 i. 保证parse方法返回一个可迭代类型的对象（存储解析到的页面内容） ii. 使用终端指令完成数据存储到指定磁盘文件的操作 1. scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀如（test.csv） b)基于管道 i. item 阅读全文

posted @ 2018-12-13 17:39 Corey0606 阅读(164) 评论(0) 推荐(0)

基础使用scrapy

摘要：1.创建一个工程： scrapy startproject 工程名称 1. 目录结构： 2.在工程目录下创建一个爬虫文件 1.cd 工程 2. scrapy genspider 爬虫文件的名称起始的url 3.对应的文件中编写爬虫程序来完成爬虫的相关操作 4.配置文件的编写修改将setting 阅读全文

posted @ 2018-12-13 09:54 Corey0606 阅读(146) 评论(0) 推荐(0)

日志记录操作

摘要：日志可以根据级别改变阅读全文

posted @ 2018-12-12 11:29 Corey0606 阅读(193) 评论(0) 推荐(0)

自动登录码云

摘要：登录以后看私密仓库，拒绝递归式进入阅读全文

posted @ 2018-12-12 11:25 Corey0606 阅读(214) 评论(0) 推荐(0)

实现数据同步 -----将post, get 码云私有仓库

摘要：在爬虫递归操作被拒绝时，可采取需要爬取的页面刷新捕捉Network里面的请求包，拿取requestheaders全部写入即可阅读全文

posted @ 2018-12-12 11:23 Corey0606 阅读(549) 评论(0) 推荐(0)

邮件接口修改信息提示

摘要：此处运用到QQ邮箱账号跟授权码阅读全文

posted @ 2018-12-12 11:18 Corey0606 阅读(193) 评论(0) 推荐(0)

帮同学爬取某官方公众号的众多企业信息

摘要：import requests import xlwt from bs4 import BeautifulSoup from threading import Thread # 725 1160 def main(): workbook = xlwt.Workbook() sheet1 = workbook.add_sheet('test', cell_overwrite_ok=... 阅读全文

posted @ 2018-12-10 17:30 Corey0606 阅读(217) 评论(0) 推荐(0)

sqlite3相应的注意点

摘要：注意：sqlite3在execute("sql语句") sqlite3只支持？，：=占位符不支持%s 但是sql语句作为变量execute(sql)里只可以用%s作占位符，等号的另一遍要加a = 'b' 模糊查询 sql语句like用法显示结果为'%字段%'，上述查询结果为关键词里包含字段的阅读全文

posted @ 2018-12-10 17:24 Corey0606 阅读(509) 评论(0) 推荐(0)

基于UA的反爬机制

摘要：反爬机制：网站检查请求的UA，如果发现UA是爬虫程序，则拒绝提供网站数据 User-Agent(UA) : 请求载体的身份标识反反爬机制：伪装爬虫程序请求的UA 阅读全文

posted @ 2018-12-07 10:14 Corey0606 阅读(459) 评论(0) 推荐(0)

excel导入数据与数据库对接操作

摘要：1.接口excel 2. sqlite数据库写入excel、导出excel数据重点：（1）注意pycharm中的database可视化管理，必须是DDL的数据库才可以与代码联合使用（2）建议以sql原生语句的形式去代码创建表跟数据库（3） sqlite3 只支持？和：啥这2个占位符格式，阅读全文

posted @ 2018-12-04 10:01 Corey0606 阅读(1364) 评论(0) 推荐(0)

COREY

12 2018 档案

公告