王琳杰 - 博客园

2018年6月24日

摘要：创建项目scrapy startproject xxx 编写items文件 items.py scrapy genspider zhihu zhihu.com scrapy genspider -t craw doubanmovie douban.com 阅读全文

posted @ 2018-06-24 10:25 王琳杰阅读(140) 评论(0) 推荐(0)

2018年6月23日

Scrapy爬取知乎用户信息

摘要：创建项目scrapy startproject zhihuuser scrapy genspider zhihu zhihu.com items.py zhihu.py pipelines.py 阅读全文

posted @ 2018-06-23 16:38 王琳杰阅读(284) 评论(0) 推荐(0)

scrapy-redis分布式组件

摘要： Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供阅读全文

posted @ 2018-06-23 10:00 王琳杰阅读(153) 评论(0) 推荐(0)

爬取豆瓣电影信息

摘要：爬取豆瓣电影top250movie.douban.com/top250的电影数据，并保存在MongoDB中。创建项目scrapy startproject douban items.py 创建CrawSpider，使用模版craw scrapy genspider -t craw doubanmo 阅读全文

posted @ 2018-06-23 00:31 王琳杰阅读(556) 评论(0) 推荐(0)

数据存储小例

摘要：启动MongoDB服务的命令如下： brew services start mongodbsudo mongod 停止和重启MongoDB服务的命令分别是： brew services stop mongodbbrew services restart mongodb 查看当前数据库 > db 查看阅读全文

posted @ 2018-06-23 00:13 王琳杰阅读(131) 评论(0) 推荐(0)

2018年6月22日

数据存储

摘要： 1.TXT文本存储可以用requests将网页源代码获取下来，然后使用pyquery解析库解析，接下来将提取的标题、回答者、回答保存到文本，代码如下：运行程序，可以发现在本地生成了一个txt文件。首先，用requests提取知乎的“发现”页面，然后将热门话题的问题、回答者、答案全文提取出来，然阅读全文

posted @ 2018-06-22 20:53 王琳杰阅读(674) 评论(0) 推荐(0)

文本提取及处理

摘要：文本提取及处理标题提取：正文提取： python3中处理：阅读全文

posted @ 2018-06-22 00:24 王琳杰阅读(931) 评论(0) 推荐(0)

2018年6月21日

爬取阳光问政平台

摘要：创建项目 scrapy startproject dongguan items.py 创建CrawSpider，使用模版crawl scrapy genspider -t crawl sun wz.sun0769.com sun.py pipelines.py 执行 scrapy crawl sun 阅读全文

posted @ 2018-06-21 22:25 王琳杰阅读(660) 评论(0) 推荐(0)

CrawlSpider爬取腾讯招聘信息

摘要： CrawlSpider不在手动处理url，它会自动匹配到响应文件里的所有符合匹配规则的链接。创建项目scrapy startproject TencentSpider items.py 创建CrawlSpider，使用模版crawl scrapy genspider -t crawl tencen 阅读全文

posted @ 2018-06-21 21:49 王琳杰阅读(269) 评论(0) 推荐(0)

LinkExtractor

摘要：响应文件导入LinkExtractor，匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor 阅读全文

posted @ 2018-06-21 21:20 王琳杰阅读(490) 评论(0) 推荐(0)

一蓑烟雨

公告