随笔分类 -  爬虫

摘要:一 scrapy框架简介 01 什么是scrapy: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各 阅读全文
posted @ 2019-03-06 22:06 Mixtea 阅读(186) 评论(0) 推荐(0)
摘要:MongoDB 认识MongoDB MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似jso 阅读全文
posted @ 2019-03-06 10:05 Mixtea 阅读(289) 评论(0) 推荐(0)
摘要:selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScri 阅读全文
posted @ 2019-03-05 09:22 Mixtea 阅读(180) 评论(0) 推荐(0)
摘要:一.正则匹配 简单用法演示: 1 字符: 2 print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符,搭配re.S可搭配任意字符(包括空行)#['a', 'b', 'c', 'c', 'c', '3', '1', '2', '2', 阅读全文
posted @ 2019-03-01 17:17 Mixtea 阅读(480) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2019-02-28 16:36 Mixtea 阅读(3) 评论(0) 推荐(0)