07 2019 档案

摘要:赋值运算 在赋值中,l1和l2指向的是同一个内存地址,所以是完全一样的;指向同一个列表时任何一个变量对列表进行修改,剩下的那个变量在使用列表时,获取到的就是改变之后的列表 浅拷贝 copy,只是拷贝了原数据的第一层元素 深拷贝 deepcopy,可变的数据类型重新开辟一块空间;不可变的数据类型共用之 阅读全文
posted @ 2019-07-17 15:29 DF-包子 阅读(202) 评论(0) 推荐(0)
摘要:一、if语句: 1. 单个if: 2. if else: 3. if elif: 4. if if 5. if嵌套 二、while循环 1. 基本循环 实例: 使用whlie循环输出1-100 1.1 break(终止循环,以下代码均不执行) 实例: 1.2continue(结束本次循环,继续下次循 阅读全文
posted @ 2019-07-14 18:53 DF-包子 阅读(153) 评论(0) 推荐(0)
摘要:jinja2中的safe 在后端传入一个标签,需要在后端或前端添加safe可识别标签;如果后端代码是以下这样,在前端通过jinja2的语法获取的tag会是什么样的结果呢? from flask import Flask from flask import render_template app = 阅读全文
posted @ 2019-07-12 22:06 DF-包子 阅读(338) 评论(0) 推荐(0)
摘要:分布式爬虫 基于spider-redis实现 增量式爬虫 阅读全文
posted @ 2019-07-12 17:33 DF-包子 阅读(101) 评论(0) 推荐(0)
摘要:基于Spider父类的全站数据爬取 CrawSpider实现全站数据的爬取 阅读全文
posted @ 2019-07-12 17:32 DF-包子 阅读(284) 评论(0) 推荐(0)
摘要:简介 环境安装 基本使用 高性能的数据解析 进行持久化存储(存储在不同的数据库中) 阅读全文
posted @ 2019-07-12 17:30 DF-包子 阅读(102) 评论(0) 推荐(0)
摘要:单线程多任务异步协程 协程设计 任务对象的封装 绑定循环对象 单线程多任务报错 aiohttp实现多任务异步协程 requests模块结合aiohttp 阅读全文
posted @ 2019-07-12 17:28 DF-包子 阅读(139) 评论(0) 推荐(0)
摘要:简介 环境安装 简单使用 浏览器创建 元素定位 节点交互 动作链的设计 执行js代码 获取页面源码数据,模拟页面进行前进和都退 cookie和异常处理 阅读全文
posted @ 2019-07-12 17:25 DF-包子 阅读(93) 评论(0) 推荐(0)
摘要:图片懒加载概念 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,如果一次性将整个页面的所有图片加载完,将会大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的技术就被称 阅读全文
posted @ 2019-07-12 17:01 DF-包子 阅读(152) 评论(0) 推荐(0)
摘要:当我们登陆某些门户网站时,如果用户连续登陆的次数超过一定次数时,就会在登陆页面中动态生成验证码,通过验证码达到分流和反爬的效果。所以我们可以借用打码平台来进行验证码的识别。 超级鹰处理验证码的实现流程: 1.对携带验证码的页面数据进行抓取; 2.可以将页面数据中验证码进行解析,验证码图片下载到本地; 阅读全文
posted @ 2019-07-12 16:47 DF-包子 阅读(208) 评论(0) 推荐(0)
摘要:Python 3.x 版本相对于Python的早期版本,是一个较大的升级;许多针对早期Python版本设计的程式都无法在Python 3.0上正常执行。 Python 3.0 的变化主要体现在以下几个方面: 1. print()函数 Python 2 中的print语句没有了,取而代之的是print 阅读全文
posted @ 2019-07-11 16:40 DF-包子 阅读(2343) 评论(0) 推荐(0)
摘要:数据解析,是实现聚焦爬虫的核心技术,在一张页面源码中提取指定的文本内容。数据解析的通用原理:要提取解析的数据都是存储在标签中间或者标签的属性中 解析方式一:re 需要设置一个通用的url模板,是不可变的 import requests import re import os # 指定url url 阅读全文
posted @ 2019-07-09 10:10 DF-包子 阅读(195) 评论(0) 推荐(0)
摘要:1. 简介 requests模块是python中原生的基于网络请求的模块,主要用来模拟浏览器发起请求,而且功能强大,用法简洁高效。在使用urllib模块时,需要手动处理url编码和post请求参数,也需要处理cookie,而且代理操作繁琐。使用requests模块会自动处理url编码和post请求参 阅读全文
posted @ 2019-07-08 21:45 DF-包子 阅读(149) 评论(0) 推荐(0)
摘要:爬虫引入 当今我们正处于发展人工智能和大数据时代。在大数据时代,需要对数据进行分析,这就要求需要有数据来源;而数据抓取可以让我们获取更多的数据源,并且这些数据还可以按照我们具体的要求进行采集和处理。 当今的一个综艺节目:火星情报局,就是基于网络数据抓取和数据分析来制作完成的。其中每一期的节目话题都是 阅读全文
posted @ 2019-07-03 10:52 DF-包子 阅读(289) 评论(0) 推荐(0)
摘要:简介 Flask框架,主要是小而轻便,非常节省资源,开发的速度很快;但Flask原生的组件较少,只有原生的session组件,一般很少用。而基于Flask的代码逻辑开的发出来的三方组件也很全,如果全部安装会比Django框架大很多,而且一旦Flask更新,三方组件如果支撑不了Flask版本的话,就会 阅读全文
posted @ 2019-07-02 09:41 DF-包子 阅读(160) 评论(0) 推荐(0)