爬虫 - 随笔分类 - Mixtea

05 爬虫之scrapy

摘要：一 scrapy框架简介 01 什么是scrapy: Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各阅读全文

posted @ 2019-03-06 22:06 Mixtea 阅读(201) 评论(0) 推荐(0)

04 爬虫数据存储之Mongodb

摘要：MongoDB 认识MongoDB MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似jso 阅读全文

posted @ 2019-03-06 10:05 Mixtea 阅读(298) 评论(0) 推荐(0)

03 爬虫之selenium模块

摘要：selenium模块 1.概念,了解selenium 什么是selenium？selenium是Python的一个第三方库，对外提供的接口可以操作浏览器，然后让浏览器完成自动化的操作。 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScri 阅读全文

posted @ 2019-03-05 09:22 Mixtea 阅读(192) 评论(0) 推荐(0)

02 爬虫数据解析之re,xpath,beautifulsoup

摘要：一.正则匹配简单用法演示: 1 字符: 2 print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符,搭配re.S可搭配任意字符(包括空行)#['a', 'b', 'c', 'c', 'c', '3', '1', '2', '2', 阅读全文

posted @ 2019-03-01 17:17 Mixtea 阅读(500) 评论(0) 推荐(0)

01 爬虫之request和respond

只有注册用户登录后才能阅读该文。

posted @ 2019-02-28 16:36 Mixtea 阅读(3) 评论(0) 推荐(0)

Mixtea

随笔分类 - 爬虫

公告