随笔分类 -
爬虫
python下爬虫系类的理解,包括轻量级数据和重量级数据的爬取。
-
爬虫(五):生产者消费者方法
摘要:1.不使用锁的话,可能会产生线程的竞争:当共享一个对象(变量或者一个方法)加锁的操作 在threading模块中,定义两种类型的琐:threading.Lock和threading.RLock。它们之间有一点细微的区别,通过比较下面两段代码来说明:import threading lock = th
阅读全文
-
爬虫实例(三):模拟登陆新浪
摘要:1.在模拟登陆的过程中第一步需要得到登陆前信息,用户名和密码通过js预先加密,所以必须要先将js预先加密的servertime和nonce和pubkey得到,下面json模块和re得到预先加密的信息 1 # coding:utf-8 2 import urllib2 3 import re 4 im
阅读全文
-
爬虫(四):正则表达式(提取str中网址)
摘要:3.采用beatifulsoup与re正则表达式一起使,提取html中的一些href的链接 http://cuiqingcai.com/1319.html 4.如何利用正则表达式边界匹配
阅读全文
-
爬虫(二):urllib库文件的基础和进阶(python2.7)
摘要:1.上面显示最简单的网页面的爬虫,在实际的过程中爬取的页面有服务器的登录和cookie等网页的登录: 一般有POSt和GEt数据传送方式:Get向服务器发送索取数据的请求直接暴露动态网页上cookies同时GET传送方式url链接字数限制, POST,直接向服务器提出登录请求: 最重要的区别是GET
阅读全文
-
爬虫实例(二):多线程,多进程对网页的爬取
摘要:采用多线程对韩寒的微博进行爬取,这个只是不需要进行模拟登陆的:
阅读全文
-
爬虫实例(一):模拟登录CSDN
摘要:1.采用python模拟登录CSDN的时候分为三步走: 1.获取url=https://passport.csdn.net/account/login; 2.分析登录信息:从网页中得到username,password和hideen标签隐藏的属性,在CSDN中有三个隐藏标签,lt,execution
阅读全文
-
爬虫(三):对requests、xpath模块
摘要:1.之前在网页中URl链接采用Urllib/Urllib2,但是现在加强版requests模块进行网页URl提取,requests库模拟登录或者登录动态网页 URL理解:网页抓取过程浏览器向服务器请求的过程:1.访问资源命名机制2.存放资源主机3.资源自身的路径 对requests模块的入门:htt
阅读全文
-
爬虫(一):基础篇
摘要:1.对于网页抓取器:urllib2(基础版),requests(加强版)。接下来以urllib2为例子介绍网页抓取的三个基础的小例子 2.网页解析器:从网页中提取有价值的数据工具: 分为:正则表达式 、html.parser、BeautifulSoup(采用html.parser 和 lxml形式)
阅读全文
-
爬虫
摘要:1.准备工作: urllib库: pip install beautifulsoup4 pip install reguests pip install selenium 2.专用词理解: href:链接,一种URL。一般是<a>标准 3.正则表达式:import re a.正则表达式是一种特殊的字
阅读全文