摘要: Requests库是第三方模块,需要额外进行安装。Requests是一个开源库 去GitHub下载回来,进入解压文件,运行setup.py 比urllib2实现方式的代码量少,下面是POST请求: 下面是get请求,但有些get请求url包含参数,如:www.xxx.com?keyword=bolg 阅读全文
posted @ 2018-08-01 23:25 大大的大笨熊 阅读(281) 评论(0) 推荐(0)
摘要: httplib模块是一个底层基础模块,可以看到建立HTTP请求的每一步,但是实际的功能比较少。在python爬虫开发中基本用不到 下面详细介绍httplib提供的常用类型和方法: httplib.HTTPConnection ( host [ , port [ , strict [ , timeou 阅读全文
posted @ 2018-08-01 21:02 大大的大笨熊 阅读(379) 评论(0) 推荐(0)
摘要: python实现HTTP请求的三中方式:urllib2/urllib、httplib/urllib 以及Requests urllib2/urllib实现 urllib2和urllib是python两个内置的模块,要实现HTTP功能,实现方式是以urllib2为主,urllib为辅 1 首先实现一个 阅读全文
posted @ 2018-08-01 20:18 大大的大笨熊 阅读(7907) 评论(0) 推荐(0)
摘要: XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 节点(Node) 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。 请看下面这个 XML 文档: 上面的XML文档中的节点例子 阅读全文
posted @ 2018-08-01 15:45 大大的大笨熊 阅读(643) 评论(0) 推荐(0)
摘要: Socket 是网络编程的一个抽象概念,通常我们用一个Socket表示 “打开了一个网络链接”,而打开一个Socket 需要知道目标计算机的IP 地址和端口号,再指定协议类型即可。python 提供了两个级别的网络服务 1.低级别的网络服务支持基本的Socket,它提供了标准的BSD Sockets 阅读全文
posted @ 2018-08-01 12:05 大大的大笨熊 阅读(267) 评论(0) 推荐(0)
摘要: 分布式进程指的是将Process进程分布到多台机器上,充分利用多态机器的性能完成复杂的任务 分布式进程在python 中依然要用到multiprocessing 模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调 阅读全文
posted @ 2018-08-01 11:29 大大的大笨熊 阅读(4759) 评论(0) 推荐(3)
摘要: 协程,又称微线程,是用户级的轻量级线程。协程拥有自己的寄存器上下文和栈,调度切换时,将寄存器上下文保存在其他地方,切回来恢复。因此,协程能保留上一次调用的状态。 在并发编程中,协程与线程类似,每个协程有自己的本地数据,与其他协程共享全局数据和其他资源 协程需要用户自己编写调度逻辑,对CPU来说,协程 阅读全文
posted @ 2018-08-01 10:52 大大的大笨熊 阅读(252) 评论(0) 推荐(0)