随笔分类 - python爬虫
摘要:创建项目scrapy startproject xxx 编写items文件 items.py scrapy genspider zhihu zhihu.com scrapy genspider -t craw doubanmovie douban.com
阅读全文
摘要:创建项目scrapy startproject zhihuuser scrapy genspider zhihu zhihu.com items.py zhihu.py pipelines.py
阅读全文
摘要:Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供
阅读全文
摘要:爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中。 创建项目scrapy startproject douban items.py 创建CrawSpider,使用模版craw scrapy genspider -t craw doubanmo
阅读全文
摘要:1.TXT文本存储 可以用requests将网页源代码获取下来,然后使用pyquery解析库解析,接下来将提取的标题、回答者、回答保存到文本,代码如下: 运行程序,可以发现在本地生成了一个txt文件。 首先,用requests提取知乎的“发现”页面,然后将热门话题的问题、回答者、答案全文提取出来,然
阅读全文
摘要:创建项目 scrapy startproject dongguan items.py 创建CrawSpider,使用模版crawl scrapy genspider -t crawl sun wz.sun0769.com sun.py pipelines.py 执行 scrapy crawl sun
阅读全文
摘要:CrawlSpider不在手动处理url,它会自动匹配到响应文件里的所有符合匹配规则的链接。 创建项目scrapy startproject TencentSpider items.py 创建CrawlSpider,使用模版crawl scrapy genspider -t crawl tencen
阅读全文
摘要:响应文件 导入LinkExtractor,匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor
阅读全文
摘要:创建项目scrapy startproject tencent 编写items.py写class TencentItem 创建基础类的爬虫 scrapy genspider tencentPosition"tencent.com" tencentPosition.py 管道文件pipelines.p
阅读全文
摘要:Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的
阅读全文
摘要:Python3 多线程,多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理。 用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度 程序的运行速度可能加快 在一些等待的任务实现上如用户输
阅读全文
摘要:Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的
阅读全文
摘要:获取验证码图片 识别缺口位置 生成滑块拖动路径 模拟实现滑块拼合 估计是高分屏的原因,截全图下来的时候我用画图软件看了图形验证码的像素位置,刚好是给的位置参数乘以2,所以保存下来的2张验证码的图还要压缩一下分辨率,加入下面语句就可以做对比匹配了。 修改参数 结果输出:
阅读全文
摘要:获取页面信息,用XPath 做数据提取 获取每个blog里的用标题、正文、阅读次数信息 保存到 json 文件内 待完。。。 python3中:
阅读全文
摘要:ORC库概述 在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python 一直都是非常出色的语言。虽然有很多库可以进行图像处理,在这里只重点介绍:Tesseract Tesseract Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR
阅读全文
摘要:爬取糗事百科段子,页面的URL是 http://www.qiushibaike.com/8hr/page/ 使用requests获取页面信息,用XPath 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 在python3中爬取糗事百科段子:
阅读全文
摘要:现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 在python3中使用XPath的爬虫,百度贴吧图片下载:
阅读全文
摘要:为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数
阅读全文
摘要:Python2和Python3中urllib库中urlencode的使用注意事项 前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。 对
阅读全文

浙公网安备 33010602011771号