会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一蓑烟雨
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
10
11
12
13
14
15
16
17
18
19
下一页
2018年6月24日
分布式爬虫
摘要: 创建项目scrapy startproject xxx 编写items文件 items.py scrapy genspider zhihu zhihu.com scrapy genspider -t craw doubanmovie douban.com
阅读全文
posted @ 2018-06-24 10:25 王琳杰
阅读(138)
评论(0)
推荐(0)
2018年6月23日
Scrapy爬取知乎用户信息
摘要: 创建项目scrapy startproject zhihuuser scrapy genspider zhihu zhihu.com items.py zhihu.py pipelines.py
阅读全文
posted @ 2018-06-23 16:38 王琳杰
阅读(280)
评论(0)
推荐(0)
scrapy-redis分布式组件
摘要: Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供
阅读全文
posted @ 2018-06-23 10:00 王琳杰
阅读(144)
评论(0)
推荐(0)
爬取豆瓣电影信息
摘要: 爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中。 创建项目scrapy startproject douban items.py 创建CrawSpider,使用模版craw scrapy genspider -t craw doubanmo
阅读全文
posted @ 2018-06-23 00:31 王琳杰
阅读(553)
评论(0)
推荐(0)
数据存储小例
摘要: 启动MongoDB服务的命令如下: brew services start mongodbsudo mongod 停止和重启MongoDB服务的命令分别是: brew services stop mongodbbrew services restart mongodb 查看当前数据库 > db 查看
阅读全文
posted @ 2018-06-23 00:13 王琳杰
阅读(129)
评论(0)
推荐(0)
2018年6月22日
数据存储
摘要: 1.TXT文本存储 可以用requests将网页源代码获取下来,然后使用pyquery解析库解析,接下来将提取的标题、回答者、回答保存到文本,代码如下: 运行程序,可以发现在本地生成了一个txt文件。 首先,用requests提取知乎的“发现”页面,然后将热门话题的问题、回答者、答案全文提取出来,然
阅读全文
posted @ 2018-06-22 20:53 王琳杰
阅读(671)
评论(0)
推荐(0)
文本提取及处理
摘要: 文本提取及处理 标题提取: 正文提取: python3中处理:
阅读全文
posted @ 2018-06-22 00:24 王琳杰
阅读(928)
评论(0)
推荐(0)
2018年6月21日
爬取阳光问政平台
摘要: 创建项目 scrapy startproject dongguan items.py 创建CrawSpider,使用模版crawl scrapy genspider -t crawl sun wz.sun0769.com sun.py pipelines.py 执行 scrapy crawl sun
阅读全文
posted @ 2018-06-21 22:25 王琳杰
阅读(658)
评论(0)
推荐(0)
CrawlSpider爬取腾讯招聘信息
摘要: CrawlSpider不在手动处理url,它会自动匹配到响应文件里的所有符合匹配规则的链接。 创建项目scrapy startproject TencentSpider items.py 创建CrawlSpider,使用模版crawl scrapy genspider -t crawl tencen
阅读全文
posted @ 2018-06-21 21:49 王琳杰
阅读(265)
评论(0)
推荐(0)
LinkExtractor
摘要: 响应文件 导入LinkExtractor,匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor
阅读全文
posted @ 2018-06-21 21:20 王琳杰
阅读(487)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
17
18
19
下一页
公告