05 2018 档案
摘要:引用源:https://www.cnblogs.com/propheterLiu/p/5966791.html 笔记-JavaScript和HTML DOM 区别: javascript JavaScript 是因特网上最流行的浏览器脚本语言。很容易使用!你一定会喜欢它的! JavaScript 被
阅读全文
摘要:笔记-html 1. HTML介绍及特点HTML(超文本标记语言Hypertext Markup Language)通过标签语言来标记要显示的网页中的各个部分。一套可被浏览器认识的规则;浏览器按顺序渲染网页文件,然后根据标记符解释和显示内容。但需要注意的是,对于不同的浏览器,对同一标签可能会有不完全
阅读全文
摘要:笔记-Python-性能优化 1. 开始 1.1. python性能差么? 做一个判断前,先问是不是。 python运行效率低是事实。 1.2. 为什么? 原因: 一个变量所指向的对象在运行时才能确定,编译器做不了预测,也就无从优化;与此相对的是在静态语言中,编译时就确定了运行时的代码。 这个可能是
阅读全文
摘要:笔记-Python-module 1. 模块 关于模块: 每个模块都有自己的私有符号表,模块中所有的函数以它为全局符号表。因此,模块的作者可以在模块中使用全局变量,而不用担心与用户的全局变量发生意外冲突。另一方面,如果有需要,可以引用某一模块的全局变量,引用方法为modname.itemname。
阅读全文
摘要:软件测试分类及测试中三个主要概念 原文链接:https://blog.csdn.net/qq_35867537/article/details/77477775 1. 软件测试分类 按测试技术分 按测试技术,软件测试可分为:黑盒测试、白盒测试、灰盒测试 黑盒测试:在程序接口进行测试,它只是检查程序功
阅读全文
摘要:笔记-python-字符串格式化-format() 1. 简介 本文介绍了python 字符串格式化方法format()的常规使用方式。 2. 使用 2.1. Accessing arguments by position: >>> '{0}, {1}, {2}'.format('a', 'b',
阅读全文
摘要:笔记-python-centos环境下安装配置 1. 准备工作 centos6.5 mini,已有python 2.6.6 Python官网下载Gzipped source tarball(版本3.6.5) tar –xvf …… mkdir /usr/local/python3.6.5 yum -
阅读全文
摘要:方法1 import datetime starttime = datetime.datetime.now() #long running endtime = datetime.datetime.now() print (endtime - starttime).seconds 方法 2 start
阅读全文
摘要:笔记-python-*号解包 在码代码时发现*号可以这样使用: abcd abce abcff w e f w e 原因: 其实只差一个*而已。*是python中一个赋值的技巧,叫做解包。 在定义函数时def func(*args, **kwargs),*代表不定个数的参数,以tuple的方式传入,
阅读全文
摘要:笔记-python-urllib 1. 简介 PYTHON3中将urllib,urllib2整合到URLLIB中 包括以下模块 urllib.request 请求模块(核心) urllib.error 异常处理模块 urllib.parse url解析模块(主要用于url生成,格式处理) urlli
阅读全文
摘要:笔记-python-standard library-19.2 json 1. JSON简介 JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语
阅读全文
摘要:笔记-爬虫算法 1.网站结构 网站结构一般情况下可以简化为一个树状 2.爬虫算法 在大规模爬虫系统中,待抓取url队列是很重要的一部分,队列顺序也是很重要的内容;爬虫算法就是用于决定抓取先后顺序的。 下文将介绍目前常用的算法: 1.深度优先: 深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪
阅读全文
摘要:笔记-scrapy与twisted 笔记-scrapy与twisted Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。 在任何情况下,都不要写阻塞的代码。阻塞的代码包括: 访问文件、数据库或者Web 产生新的进程并需要处理新进程的输出
阅读全文
摘要:文档-Linux IO模式详解 1. 概念说明 在进行解释之前,首先要说明几个概念:- 用户空间和内核空间- 进程切换- 进程的阻塞- 文件描述符- 缓存 I/O 1.1 用户空间与内核空间 现在操作系统都是采用虚拟存储器,那么对32位操作系统而言,它的寻址空间(虚拟存储空间)为4G(2的32次方)
阅读全文
摘要:笔记-大规模爬虫实现逻辑,问题及解决办法 1. 简单爬虫的实现逻辑 第一步:爬取种子urls; 第二步:解析response,获得新的urls; 第三步:重复1、2步,达到指定条件后结束爬取。 2. 爬取100000或更多个网页的实现逻辑 如果仍然按上述方法处理,问题来了: 接下来一一讨论解决办法
阅读全文
摘要:笔记-scrapy-setting 1. 简介 Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和蜘蛛本身. 可以使用不同的机制来填充设置,每种机制都有不同的优先级。以下按优先级降序排列: 命令行选项(最优先) 每个蜘蛛的设置 项目设置模块settings.py 每个命令
阅读全文
摘要:笔记-scrapy-Request/Response 1. 简介 Scrapy使用Request和Response来爬取网站。 2. request class scrapy.http.Request(url [,callback,method ='GET',headers,body,cookies
阅读全文
摘要:笔记-scrapy-pipeline 1.简介 scrapy抓取数据后,使用yield发送item对象至pipeline,pipeline顺序对item进行处理。 一般用于: 清洗,验证,检查数据; 存储数据; 2.使用 将数据保存到json文件中示例 import json class JsonW
阅读全文
摘要:笔记-scrapy-item 1.总述 爬虫数据保存用,一般情况下无需过多处理,引用并使用Field方法即可。 2.使用 常规使用:
阅读全文
摘要:笔记-scrapy-selector scrapy版本:1.5.0 1.总述 scrapy内置selector建立在lxml上。 2.使用 可以使用xpath和css方法来进行解析,两者都返回列表; sel = Selector(text=body).xpath('//div[@class="ip_
阅读全文

浙公网安备 33010602011771号