随笔分类 -  Python

摘要:爬虫的自我修养_5 一、CrawlSpiders类简介 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们 阅读全文
posted @ 2017-12-04 21:42 想54256 阅读(2714) 评论(0) 推荐(0)
摘要:爬虫的自我修养_4 一、Scrapy 框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted[' 阅读全文
posted @ 2017-12-03 20:02 想54256 阅读(922) 评论(0) 推荐(0)
摘要:爬虫的自我修养_3 一、CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整 阅读全文
posted @ 2017-12-02 19:03 想54256 阅读(7958) 评论(0) 推荐(1)
摘要:爬虫的自我修养_2 一、Handler处理器 和 自定义Opener(引擎们) opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cooki 阅读全文
posted @ 2017-11-30 18:41 想54256 阅读(1019) 评论(0) 推荐(0)
摘要:一、爬虫如何抓取网页数据: 网页三大特征: -1. 网页都有自己唯一的URL(统一资源定位符)来进行定位 -2. 网页都使用HTML (超文本标记语言)来描述页面信息。 -3. 网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据。 爬虫的设计思路: -1. 首先确定需要爬取的网页 阅读全文
posted @ 2017-11-30 12:36 想54256 阅读(3966) 评论(0) 推荐(0)
摘要:数据结构 程序=数据结构+算法 数据结构就是设计数据以何种方式组织并存储在计算机中。列表、集合与字典等都是一种数据结构。 小Tips:列表中的元素是怎样存储的,操作的时间复杂度是多少? 栈 栈(Stack)是一个数据集合,可以理解为只能在一端进行插入或删除操作的列表。 栈的特点:后进先出 栈的基本操 阅读全文
posted @ 2017-11-29 20:43 想54256 阅读(925) 评论(0) 推荐(0)
摘要:算法(Algorithm)概念:一个计算过程,解决问题的方法 递归的两大特点: 1、自己调用自己 2、有穷性(python默认只能递归999次)自己修改递归深度:sys.setrecursionlimit(100000) 时间复杂度 时间复杂度是一个估计的时间(正常人都说这个活还有几个月就完成了,没 阅读全文
posted @ 2017-11-28 21:48 想54256 阅读(768) 评论(0) 推荐(0)
摘要:组合搜索 方法一: models.py views.py url.py html 1 url(r'^article-(?P<article_type_id>\d+)-(?P<category_id>\d+).html', views.article), 1 from django.db import 阅读全文
posted @ 2017-11-26 20:16 想54256 阅读(363) 评论(0) 推荐(0)
摘要:Ajax三种提交方式 a.原生ajax(XmlHttpRequest) XmlHttpRequest对象的主要方法: XmlHttpRequest对象的主要属性: 1 function Ajax1(){ 2 var xhr = getXHR(); 3 //var xhr = new XMLHttpR 阅读全文
posted @ 2017-11-15 20:32 想54256 阅读(510) 评论(0) 推荐(0)
摘要:ModelForm(强大的数据验证,适中的数据库操作) Form:UserForm -> Form -> BaseFormModelForm:UserModelForm -> ModelForm -> BaseModelForm -> BaseForm 添加信息 修改信息 1 from django 阅读全文
posted @ 2017-11-12 21:30 想54256 阅读(884) 评论(0) 推荐(0)
摘要:session 使用session前一定要先python manage.py makemigration+python manage.py migrate 基于cookie做用户验证的时候,敏感的信息不适合放在cookie中,所以引出session a.session原理 cookie是保存在用户浏 阅读全文
posted @ 2017-11-11 17:34 想54256 阅读(266) 评论(0) 推荐(0)
摘要:Form表单验证 1、创建Form类 1 from django.forms import Form 2 from django.forms import widgets 3 from django.forms import fields 4 5 class FM(Form): 6 user = f 阅读全文
posted @ 2017-11-11 15:27 想54256 阅读(846) 评论(0) 推荐(0)
摘要:Flask Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于接收http请求并对请求进行预处理,然后触发Flask框架,开发人员基于Flask框架提供的功能对请求进行相应的处理,并返回给用 阅读全文
posted @ 2017-11-11 15:03 想54256 阅读(439) 评论(0) 推荐(0)
摘要:templates 1、母版 extends方法 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-8"> 5 <title>{% block title %} {% endblock %}</title> 6 <l 阅读全文
posted @ 2017-11-08 23:38 想54256 阅读(297) 评论(0) 推荐(0)
摘要:数据库操作 dbfirst:数据库优先 codefirst(ORM):代码优先,sqlalchemy和DJango都是用的这种 创建表 a.在app下的models.py中,创建类 b.注册app(在settings下的INSTALLED_APPS中将app的名字添加进路径) c.执行命令 Djan 阅读全文
posted @ 2017-11-07 22:09 想54256 阅读(851) 评论(0) 推荐(0)
摘要:Model操作 a.数据表操作 ORM框架: Code first 创建类 > 自动生成表 DB first 创建表 > 根据表生成类 多对多操作: 第一种方式:自定义关系表 第二种:自动建立关系 第三种:两种方式合用 1 from django.db import models 2 from dj 阅读全文
posted @ 2017-11-07 13:57 想54256 阅读(394) 评论(0) 推荐(0)
摘要:Django请求生命周期 -> URL对应关系(匹配) -> 视图函数 -> 返回用户字符串 -> URL对应关系(匹配) -> 视图函数 -> 打开一个HTML文件,读取内容(其实也是字符串) 路由系统(URL) 1、FBV形式(参见上一篇博客)、CBV形式 views.py Django.vie 阅读全文
posted @ 2017-11-04 20:17 想54256 阅读(346) 评论(0) 推荐(0)
摘要:web框架 所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端。 上述通过socket来实现了其本质,而对于真实开发中的python web程序来说,一般会分为两部分:服务器程序和应用程序。服务器程序负责对socket服务器进行封装,并在请求到来时,对 阅读全文
posted @ 2017-11-02 23:22 想54256 阅读(225) 评论(0) 推荐(0)
摘要:类的成员 一、字段 字段包括:普通字段和静态字段,他们在定义和使用中有所区别,而最本质的区别是内存中保存的位置不同, 普通字段属于对象 静态字段属于类 由上述代码可以看出【普通字段需要通过对象来访问】【静态字段通过类访问】,在使用上可以看出普通字段和静态字段的归属是不同的。 静态字段在内存中只保存一 阅读全文
posted @ 2017-10-18 21:20 想54256 阅读(329) 评论(0) 推荐(0)
摘要:面向对象编程 面向对象编程是一种编程方式,此编程方式需要使用 “类” 和 “对象” 来实现,所以,面向对象编程其实就是对 “类” 和 “对象” 的使用。 类(class)就是一个模板,模板里可以包含多个函数,函数里实现一些功能 对象则是根据模板创建的实例,通过实例对象可以执行类中的函数 面向对象3大 阅读全文
posted @ 2017-10-18 19:06 想54256 阅读(468) 评论(0) 推荐(0)