爬虫 - 随笔分类 - 上后谈爱情

爬虫(五)：生产者消费者方法

摘要：1.不使用锁的话，可能会产生线程的竞争：当共享一个对象（变量或者一个方法）加锁的操作在threading模块中，定义两种类型的琐：threading.Lock和threading.RLock。它们之间有一点细微的区别，通过比较下面两段代码来说明：import threading lock = th 阅读全文

posted @ 2016-10-23 10:12 上后谈爱情阅读(630) 评论(0) 推荐(0)

爬虫实例（三）：模拟登陆新浪

摘要：1.在模拟登陆的过程中第一步需要得到登陆前信息，用户名和密码通过js预先加密，所以必须要先将js预先加密的servertime和nonce和pubkey得到，下面json模块和re得到预先加密的信息 1 # coding:utf-8 2 import urllib2 3 import re 4 im 阅读全文

posted @ 2016-09-03 20:04 上后谈爱情阅读(740) 评论(0) 推荐(1)

爬虫(四)：正则表达式(提取str中网址)

摘要：3.采用beatifulsoup与re正则表达式一起使，提取html中的一些href的链接 http://cuiqingcai.com/1319.html 4.如何利用正则表达式边界匹配阅读全文

posted @ 2016-09-03 19:50 上后谈爱情阅读(539) 评论(0) 推荐(0)

爬虫(二)：urllib库文件的基础和进阶（python2.7）

摘要：1.上面显示最简单的网页面的爬虫，在实际的过程中爬取的页面有服务器的登录和cookie等网页的登录：一般有POSt和GEt数据传送方式：Get向服务器发送索取数据的请求直接暴露动态网页上cookies同时GET传送方式url链接字数限制， POST，直接向服务器提出登录请求：最重要的区别是GET 阅读全文

posted @ 2016-09-03 19:48 上后谈爱情阅读(3042) 评论(0) 推荐(0)

爬虫实例(二)：多线程，多进程对网页的爬取

摘要：采用多线程对韩寒的微博进行爬取，这个只是不需要进行模拟登陆的：阅读全文

posted @ 2016-09-03 19:45 上后谈爱情阅读(1925) 评论(0) 推荐(0)

爬虫实例(一)：模拟登录CSDN

摘要：1.采用python模拟登录CSDN的时候分为三步走： 1.获取url=https://passport.csdn.net/account/login； 2.分析登录信息：从网页中得到username,password和hideen标签隐藏的属性，在CSDN中有三个隐藏标签，lt，execution 阅读全文

posted @ 2016-08-12 19:00 上后谈爱情阅读(4284) 评论(0) 推荐(0)

爬虫(三)：对requests、xpath模块

摘要：1.之前在网页中URl链接采用Urllib/Urllib2，但是现在加强版requests模块进行网页URl提取，requests库模拟登录或者登录动态网页 URL理解：网页抓取过程浏览器向服务器请求的过程：1.访问资源命名机制2.存放资源主机3.资源自身的路径对requests模块的入门：htt 阅读全文

posted @ 2016-08-09 20:42 上后谈爱情阅读(2299) 评论(0) 推荐(0)

爬虫（一）：基础篇

摘要：1.对于网页抓取器：urllib2（基础版），requests（加强版）。接下来以urllib2为例子介绍网页抓取的三个基础的小例子 2.网页解析器：从网页中提取有价值的数据工具: 分为：正则表达式、html.parser、BeautifulSoup(采用html.parser 和 lxml形式) 阅读全文

posted @ 2016-08-03 20:44 上后谈爱情阅读(310) 评论(0) 推荐(0)

爬虫

摘要：1.准备工作： urllib库： pip install beautifulsoup4 pip install reguests pip install selenium 2.专用词理解： href：链接，一种URL。一般是<a>标准 3.正则表达式：import re a.正则表达式是一种特殊的字阅读全文

posted @ 2016-05-13 21:02 上后谈爱情阅读(352) 评论(0) 推荐(0)

导航

随笔分类 - 爬虫