摘要: 笔记-python-selenium,phantomjs 1. 简介 1.1. selenium selenium是一款自动化测试工具,支持多种语言 为什么爬虫要使用selenium呢? 主要是用来解决javascript渲染的问题。 Selenium,作为一个Web应用程序测试的工具,功能显然更加 阅读全文
posted @ 2018-08-20 20:17 木林森__𣛧 阅读(151) 评论(0) 推荐(0)
摘要: 笔记-urllib-parse 1. 简介模块官方解释This module defines a standard interface to break Uniform Resource Locator (URL) strings up in components (addressing schem 阅读全文
posted @ 2018-07-22 21:01 木林森__𣛧 阅读(239) 评论(0) 推荐(0)
摘要: 笔记-Python-cProfile 1. 简介python官方提供了cProfile和profile对程序进行性能分析,建议使用cProfile; cProfile:基于lsprof的用C语言实现的扩展应用,运行开销比较合理,适合分析运行时间较长的程序,推荐使用这个模块; profile:纯Pyt 阅读全文
posted @ 2018-07-12 20:23 木林森__𣛧 阅读(684) 评论(0) 推荐(0)
摘要: 笔记-爬虫-robots.txt 1. robots.txt文件简介 1.1. 是什么 robots.txt是用来告诉搜索引擎网站上哪些内容可以被访问、哪些不能被访问。当搜索引擎访问一个网站的时候,它首先会检查网站是否存在robots.txt,如果有则会根据文件命令访问有权限的文件。 每个网站需要根 阅读全文
posted @ 2018-07-07 13:39 木林森__𣛧 阅读(302) 评论(0) 推荐(0)
摘要: 笔记-http-header 1. Requests部分 实例:User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11 例如:Accept:tex 阅读全文
posted @ 2018-06-26 10:42 木林森__𣛧 阅读(134) 评论(0) 推荐(0)
摘要: 算法-hash和hash表以及hashlib使用 1. 简介 1.1. hash Hash(散列/哈希),就是把任意长度的输入(预映射pre-image)通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所 阅读全文
posted @ 2018-06-24 19:22 木林森__𣛧 阅读(410) 评论(0) 推荐(0)
摘要: 笔记-编程-IO模型 1. 简介 常用IO模型 1) 同步阻塞IO(Blocking IO) 2) 同步非阻塞IO(Non-blocking IO) 3) IO多路复用(IO Multiplexing) 4) 异步IO(Asynchronous IO) 5) 信号IO 注:这里主要讨论的是网络IO, 阅读全文
posted @ 2018-06-19 18:33 木林森__𣛧 阅读(146) 评论(0) 推荐(0)
摘要: 笔记-Python-协程 1. 简介 协程(微线程,Coroutine)。 server的发展如下: IO密集型应用: 多进程->多线程->事件驱动->协程 CPU密集型应用:多进程-->多线程 多进程对应多CPU,多线程对应多核CPU,事件驱动和协程则是充分挖掘单核能力。 异步事件驱动模型中,把会 阅读全文
posted @ 2018-06-19 15:12 木林森__𣛧 阅读(121) 评论(0) 推荐(0)
摘要: 算法-有穷自动机 1. 简介 有穷自动机作为一种识别装置,它能准确地识别正规集,即识别正规文法所定义的语言和正规式所表示的集合。 有穷自动机分为两类:确定的有穷自动机(DFA:DeterministicFiniteAutomata)和不确定的有穷自动机(NFA:NondeterministicFin 阅读全文
posted @ 2018-06-04 16:41 木林森__𣛧 阅读(616) 评论(0) 推荐(1)
摘要: 算法-leetcode-65-Valid Number 上代码: # coding:utf-8 __author__ = "sn" """Validate if a given string is numeric. Some examples:"0" => true" 0.1 " => true"a 阅读全文
posted @ 2018-06-04 16:26 木林森__𣛧 阅读(147) 评论(0) 推荐(0)