摘要: 笔记-python-*号解包 在码代码时发现*号可以这样使用: abcd abce abcff w e f w e 原因: 其实只差一个*而已。*是python中一个赋值的技巧,叫做解包。 在定义函数时def func(*args, **kwargs),*代表不定个数的参数,以tuple的方式传入, 阅读全文
posted @ 2018-05-27 23:02 木林森__𣛧 阅读(252) 评论(0) 推荐(0)
摘要: 笔记-python-urllib 1. 简介 PYTHON3中将urllib,urllib2整合到URLLIB中 包括以下模块 urllib.request 请求模块(核心) urllib.error 异常处理模块 urllib.parse url解析模块(主要用于url生成,格式处理) urlli 阅读全文
posted @ 2018-05-27 12:03 木林森__𣛧 阅读(462) 评论(0) 推荐(0)
摘要: 笔记-python-standard library-19.2 json 1. JSON简介 JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语 阅读全文
posted @ 2018-05-25 22:59 木林森__𣛧 阅读(144) 评论(0) 推荐(0)
摘要: 笔记-爬虫算法 1.网站结构 网站结构一般情况下可以简化为一个树状 2.爬虫算法 在大规模爬虫系统中,待抓取url队列是很重要的一部分,队列顺序也是很重要的内容;爬虫算法就是用于决定抓取先后顺序的。 下文将介绍目前常用的算法: 1.深度优先: 深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪 阅读全文
posted @ 2018-05-25 16:05 木林森__𣛧 阅读(384) 评论(0) 推荐(0)
摘要: 笔记-scrapy与twisted 笔记-scrapy与twisted Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。 在任何情况下,都不要写阻塞的代码。阻塞的代码包括: 访问文件、数据库或者Web 产生新的进程并需要处理新进程的输出 阅读全文
posted @ 2018-05-22 23:22 木林森__𣛧 阅读(171) 评论(0) 推荐(0)
摘要: 文档-Linux IO模式详解 1. 概念说明 在进行解释之前,首先要说明几个概念:- 用户空间和内核空间- 进程切换- 进程的阻塞- 文件描述符- 缓存 I/O 1.1 用户空间与内核空间 现在操作系统都是采用虚拟存储器,那么对32位操作系统而言,它的寻址空间(虚拟存储空间)为4G(2的32次方) 阅读全文
posted @ 2018-05-22 23:19 木林森__𣛧 阅读(112) 评论(0) 推荐(0)
摘要: 笔记-大规模爬虫实现逻辑,问题及解决办法 1. 简单爬虫的实现逻辑 第一步:爬取种子urls; 第二步:解析response,获得新的urls; 第三步:重复1、2步,达到指定条件后结束爬取。 2. 爬取100000或更多个网页的实现逻辑 如果仍然按上述方法处理,问题来了: 接下来一一讨论解决办法 阅读全文
posted @ 2018-05-22 15:50 木林森__𣛧 阅读(296) 评论(0) 推荐(0)
摘要: 笔记-scrapy-setting 1. 简介 Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和蜘蛛本身. 可以使用不同的机制来填充设置,每种机制都有不同的优先级。以下按优先级降序排列: 命令行选项(最优先) 每个蜘蛛的设置 项目设置模块settings.py 每个命令 阅读全文
posted @ 2018-05-21 15:18 木林森__𣛧 阅读(116) 评论(0) 推荐(0)
摘要: 笔记-scrapy-Request/Response 1. 简介 Scrapy使用Request和Response来爬取网站。 2. request class scrapy.http.Request(url [,callback,method ='GET',headers,body,cookies 阅读全文
posted @ 2018-05-21 14:33 木林森__𣛧 阅读(153) 评论(0) 推荐(0)
摘要: 笔记-scrapy-pipeline 1.简介 scrapy抓取数据后,使用yield发送item对象至pipeline,pipeline顺序对item进行处理。 一般用于: 清洗,验证,检查数据; 存储数据; 2.使用 将数据保存到json文件中示例 import json class JsonW 阅读全文
posted @ 2018-05-21 13:37 木林森__𣛧 阅读(127) 评论(0) 推荐(0)