薄荷味日记

2018年9月30日

摘要：【学习目标】 Scrapy-redis分布式的运行流程 Scheduler与Scrapy自带的Scheduler有什么区别 Duplication Filter作用源码自带三种spider的使用 6. Scrapy-redis分布式组件 Scrapy 和 scrapy-redis的区别 Scrap 阅读全文

posted @ 2018-09-30 11:01 薄荷味日记阅读(18144) 评论(0) 推荐(4)

2018年9月28日

python2 'ascii'编码问题

摘要： UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 223: ordinal not in range(128) 解决方法 1 import sys 2 reload(sys) 3 sys.setdefaulten 阅读全文

posted @ 2018-09-28 14:26 薄荷味日记阅读(410) 评论(0) 推荐(0)

2018年9月27日

mongodb安装配置

摘要：下载Mongodb安装包：官方链接： windows下配置：在MongoDB/data下再创建db , log两个文件夹。因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹，否则命令不会自动创建，而且不能启动成功。启动MongoDB服务 1.打开cmd命令行 2.进入D:\Mo 阅读全文

posted @ 2018-09-27 10:04 薄荷味日记阅读(124) 评论(0) 推荐(0)

2018年9月26日

爬虫笔记八——Scrapy实战项目

摘要：（案例一）手机App抓包爬虫 1. items.py import scrapy class DouyuspiderItem(scrapy.Item): # 存储照片的名字 nickName = scrapy.Field() # 照片的url路径 imageUrl = scrapy.Field() 阅读全文

posted @ 2018-09-26 15:40 薄荷味日记阅读(622) 评论(0) 推荐(0)

2018年9月25日

爬虫笔记七

摘要： Scrapy 中文手册： https://docs.pythontab.com/scrapy/scrapy0.24/index.html Scrapy的项目结构 Scrapy框架的工作流程 Scrapy Shell Item Pipeline Scrapy项目的Spider类 Scrapy项目的Cr 阅读全文

posted @ 2018-09-25 21:07 薄荷味日记阅读(698) 评论(0) 推荐(0)

2018年9月20日

爬虫笔记六

摘要：机器视觉与Tesseract介绍机器视觉从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。我们将重点介绍机器视觉的一个分支：文字识别，介绍如何用一些 Python库来识别和使用在线图片中的文字。我们可以很轻松的阅读图阅读全文

posted @ 2018-09-20 22:22 薄荷味日记阅读(237) 评论(0) 推荐(0)

爬虫笔记五

摘要：会使用BeatifulSoup4解析和提取HTML/XML 数据 Python类型和JSON类型的相互转化 JsonPath解析和提取JSON文档使用队列进行多线程爬虫使用Selenium和PhantomJS爬取动态页面信息 BeautifulSoup4解析器 CSS 选择器：Beautiful 阅读全文

posted @ 2018-09-20 21:10 薄荷味日记阅读(415) 评论(0) 推荐(0)

2018年9月15日

爬虫笔记四

摘要： 1、Handler处理器和Opener的作用 # encoding=utf-8 import urllib2 # cookielib 模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。 import cookielib a_u 阅读全文

posted @ 2018-09-15 15:25 薄荷味日记阅读(311) 评论(0) 推荐(0)

爬虫笔记三

摘要： 1、urllib和urllib2区别 urllib和urllib2都是接受URL请求的相关模块，但是提供了不同的功能，最显著的区别如下：（1）urllib仅可以接受URL，不能创建，设置headers的request类实例；（2）但是urllib提供urlencode()方法用来GET查询字符串阅读全文

posted @ 2018-09-15 14:30 薄荷味日记阅读(246) 评论(0) 推荐(0)

2018年9月14日

爬虫笔记二

摘要： Python 的 re 模块 re 模块的一般使用步骤如下：使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象通过 Pattern 对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个 Match 对象。最后使用 Match 对象提供的属性和方法获得信阅读全文

posted @ 2018-09-14 11:33 薄荷味日记阅读(143) 评论(0) 推荐(0)

公告