摘要:        
Requests库是第三方模块,需要额外进行安装。Requests是一个开源库 去GitHub下载回来,进入解压文件,运行setup.py 比urllib2实现方式的代码量少,下面是POST请求: 下面是get请求,但有些get请求url包含参数,如:www.xxx.com?keyword=bolg    阅读全文
posted @ 2018-08-01 23:25
大大的大笨熊
阅读(281)
评论(0)
推荐(0)
        
            
        
        
摘要:        
httplib模块是一个底层基础模块,可以看到建立HTTP请求的每一步,但是实际的功能比较少。在python爬虫开发中基本用不到 下面详细介绍httplib提供的常用类型和方法: httplib.HTTPConnection ( host [ , port [ , strict [ , timeou    阅读全文
posted @ 2018-08-01 21:02
大大的大笨熊
阅读(379)
评论(0)
推荐(0)
        
            
        
        
摘要:        
python实现HTTP请求的三中方式:urllib2/urllib、httplib/urllib 以及Requests urllib2/urllib实现 urllib2和urllib是python两个内置的模块,要实现HTTP功能,实现方式是以urllib2为主,urllib为辅 1 首先实现一个    阅读全文
posted @ 2018-08-01 20:18
大大的大笨熊
阅读(7907)
评论(0)
推荐(0)
        
            
        
        
摘要:        
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 节点(Node) 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。 请看下面这个 XML 文档: 上面的XML文档中的节点例子    阅读全文
posted @ 2018-08-01 15:45
大大的大笨熊
阅读(643)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Socket 是网络编程的一个抽象概念,通常我们用一个Socket表示 “打开了一个网络链接”,而打开一个Socket 需要知道目标计算机的IP 地址和端口号,再指定协议类型即可。python 提供了两个级别的网络服务 1.低级别的网络服务支持基本的Socket,它提供了标准的BSD Sockets    阅读全文
posted @ 2018-08-01 12:05
大大的大笨熊
阅读(267)
评论(0)
推荐(0)
        
            
        
        
摘要:        
分布式进程指的是将Process进程分布到多台机器上,充分利用多态机器的性能完成复杂的任务 分布式进程在python 中依然要用到multiprocessing 模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调    阅读全文
posted @ 2018-08-01 11:29
大大的大笨熊
阅读(4759)
评论(0)
推荐(3)
        
            
        
        
摘要:        
协程,又称微线程,是用户级的轻量级线程。协程拥有自己的寄存器上下文和栈,调度切换时,将寄存器上下文保存在其他地方,切回来恢复。因此,协程能保留上一次调用的状态。 在并发编程中,协程与线程类似,每个协程有自己的本地数据,与其他协程共享全局数据和其他资源 协程需要用户自己编写调度逻辑,对CPU来说,协程    阅读全文
posted @ 2018-08-01 10:52
大大的大笨熊
阅读(252)
评论(0)
推荐(0)
        
 
                     
                    
                 
                    
                
 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号