python爬虫 - 随笔分类(第3页) - 王琳杰

分布式爬虫

摘要：创建项目scrapy startproject xxx 编写items文件 items.py scrapy genspider zhihu zhihu.com scrapy genspider -t craw doubanmovie douban.com 阅读全文

posted @ 2018-06-24 10:25 王琳杰阅读(140) 评论(0) 推荐(0)

Scrapy爬取知乎用户信息

摘要：创建项目scrapy startproject zhihuuser scrapy genspider zhihu zhihu.com items.py zhihu.py pipelines.py 阅读全文

posted @ 2018-06-23 16:38 王琳杰阅读(284) 评论(0) 推荐(0)

scrapy-redis分布式组件

摘要：Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供阅读全文

posted @ 2018-06-23 10:00 王琳杰阅读(153) 评论(0) 推荐(0)

爬取豆瓣电影信息

摘要：爬取豆瓣电影top250movie.douban.com/top250的电影数据，并保存在MongoDB中。创建项目scrapy startproject douban items.py 创建CrawSpider，使用模版craw scrapy genspider -t craw doubanmo 阅读全文

posted @ 2018-06-23 00:31 王琳杰阅读(556) 评论(0) 推荐(0)

数据存储

摘要：1.TXT文本存储可以用requests将网页源代码获取下来，然后使用pyquery解析库解析，接下来将提取的标题、回答者、回答保存到文本，代码如下：运行程序，可以发现在本地生成了一个txt文件。首先，用requests提取知乎的“发现”页面，然后将热门话题的问题、回答者、答案全文提取出来，然阅读全文

posted @ 2018-06-22 20:53 王琳杰阅读(674) 评论(0) 推荐(0)

文本提取及处理

摘要：文本提取及处理标题提取：正文提取： python3中处理：阅读全文

posted @ 2018-06-22 00:24 王琳杰阅读(931) 评论(0) 推荐(0)

爬取阳光问政平台

摘要：创建项目 scrapy startproject dongguan items.py 创建CrawSpider，使用模版crawl scrapy genspider -t crawl sun wz.sun0769.com sun.py pipelines.py 执行 scrapy crawl sun 阅读全文

posted @ 2018-06-21 22:25 王琳杰阅读(660) 评论(0) 推荐(0)

CrawlSpider爬取腾讯招聘信息

摘要：CrawlSpider不在手动处理url，它会自动匹配到响应文件里的所有符合匹配规则的链接。创建项目scrapy startproject TencentSpider items.py 创建CrawlSpider，使用模版crawl scrapy genspider -t crawl tencen 阅读全文

posted @ 2018-06-21 21:49 王琳杰阅读(269) 评论(0) 推荐(0)

LinkExtractor

摘要：响应文件导入LinkExtractor，匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor 阅读全文

posted @ 2018-06-21 21:20 王琳杰阅读(490) 评论(0) 推荐(0)

scrapy爬取腾讯招聘信息

摘要：创建项目scrapy startproject tencent 编写items.py写class TencentItem 创建基础类的爬虫 scrapy genspider tencentPosition"tencent.com" tencentPosition.py 管道文件pipelines.p 阅读全文

posted @ 2018-06-21 20:29 王琳杰阅读(235) 评论(0) 推荐(0)

python3多线程糗事百科案例

摘要：Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的阅读全文

posted @ 2018-06-19 22:18 王琳杰阅读(645) 评论(0) 推荐(0)

Python3 多线程

摘要：Python3 多线程，多线程类似于同时执行多个不同程序，多线程运行有如下优点：使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更加吸引人，这样比如用户点击了一个按钮去触发某些事件的处理，可以弹出一个进度条来显示处理的进度程序的运行速度可能加快在一些等待的任务实现上如用户输阅读全文

posted @ 2018-06-19 21:27 王琳杰阅读(362) 评论(0) 推荐(0)

多线程糗事百科案例（python2）

摘要：Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的阅读全文

posted @ 2018-06-19 00:23 王琳杰阅读(232) 评论(0) 推荐(0)

极验滑动验证码的识别

摘要：获取验证码图片识别缺口位置生成滑块拖动路径模拟实现滑块拼合估计是高分屏的原因，截全图下来的时候我用画图软件看了图形验证码的像素位置，刚好是给的位置参数乘以2，所以保存下来的2张验证码的图还要压缩一下分辨率，加入下面语句就可以做对比匹配了。修改参数结果输出：阅读全文

posted @ 2018-06-18 14:51 王琳杰阅读(2715) 评论(0) 推荐(0)

爬取【王琳杰-博客园】的博文

摘要：获取页面信息，用XPath 做数据提取获取每个blog里的用标题、正文、阅读次数信息保存到 json 文件内待完。。。 python3中：阅读全文

posted @ 2018-06-17 23:22 王琳杰阅读(166) 评论(0) 推荐(0)

处理给规范的文字

摘要：ORC库概述在读取和处理图像、图像相关的机器学习以及创建图像等任务中，Python 一直都是非常出色的语言。虽然有很多库可以进行图像处理，在这里只重点介绍：Tesseract Tesseract Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 阅读全文

posted @ 2018-06-17 22:21 王琳杰阅读(255) 评论(0) 推荐(0)

糗事百科实例

摘要：爬取糗事百科段子，页面的URL是 http://www.qiushibaike.com/8hr/page/ 使用requests获取页面信息，用XPath 做数据提取获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数保存到 json 文件内在python3中爬取糗事百科段子：阅读全文

posted @ 2018-06-17 18:44 王琳杰阅读(179) 评论(0) 推荐(0)

使用XPath的爬虫,百度贴吧图片下载

摘要：现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。在python3中使用XPath的爬虫,百度贴吧图片下载：阅读全文

posted @ 2018-06-16 14:55 王琳杰阅读(322) 评论(0) 推荐(0)

正则表达式

摘要：为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数阅读全文

posted @ 2018-06-14 21:34 王琳杰阅读(118) 评论(0) 推荐(0)

Python2和Python3中urllib库中urlencode的使用注意事项

摘要：Python2和Python3中urllib库中urlencode的使用注意事项前言在Python中，我们通常使用urllib中的urlencode方法将字典编码，用于提交数据给url等操作，但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。对阅读全文

posted @ 2018-06-14 19:38 王琳杰阅读(3324) 评论(0) 推荐(0)

一蓑烟雨

随笔分类 - python爬虫

公告