会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Mixtea
博客园
首页
新随笔
联系
管理
订阅
随笔分类 -
爬虫
05 爬虫之scrapy
摘要:一 scrapy框架简介 01 什么是scrapy: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各
阅读全文
posted @
2019-03-06 22:06
Mixtea
阅读(186)
评论(0)
推荐(0)
04 爬虫数据存储之Mongodb
摘要:MongoDB 认识MongoDB MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似jso
阅读全文
posted @
2019-03-06 10:05
Mixtea
阅读(289)
评论(0)
推荐(0)
03 爬虫之selenium模块
摘要:selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScri
阅读全文
posted @
2019-03-05 09:22
Mixtea
阅读(180)
评论(0)
推荐(0)
02 爬虫数据解析之re,xpath,beautifulsoup
摘要:一.正则匹配 简单用法演示: 1 字符: 2 print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符,搭配re.S可搭配任意字符(包括空行)#['a', 'b', 'c', 'c', 'c', '3', '1', '2', '2',
阅读全文
posted @
2019-03-01 17:17
Mixtea
阅读(480)
评论(0)
推荐(0)
01 爬虫之request和respond
只有注册用户登录后才能阅读该文。
posted @
2019-02-28 16:36
Mixtea
阅读(3)
评论(0)
推荐(0)
公告