爬虫 - 随笔分类 - eric_yi

用scrapy爬取京东商城的商品信息

摘要：软件环境： 1.创建爬虫项目 2创建京东网站爬虫. 进入爬虫项目目录，执行命令：会在spiders目录下会创建和你起的名字一样的py文件：jd.py，这个文件就是用来写你爬虫的请求和响应逻辑的 3. jd.py文件配置分析的amazon网站的url规则： https://search.jd.co 阅读全文

posted @ 2018-01-24 21:52 eric_yi 阅读(1829) 评论(0) 推荐(0)

爬虫学习目录

摘要：第一篇：爬虫基本原理第二篇：请求库之requests，selenium 第三篇：解析库之re、beautifulsoup、pyquery 第四篇：存储库之mongodb，redis，mysql 第五篇：爬虫高性能相关第六篇：Scrapy框架阅读全文

posted @ 2018-01-23 19:40 eric_yi 阅读(143) 评论(0) 推荐(0)

scrapy框架

摘要：目录：一介绍二安装三命令集四项目结构以及应用五 Spiders 一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监阅读全文

posted @ 2018-01-23 19:03 eric_yi 阅读(235) 评论(0) 推荐(0)

requests模块

摘要：目录：一介绍二基于GET请求三基于POST请求四响应Response 五高级用法一、介绍 1 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） 2 3 #注意：requests库发送阅读全文

posted @ 2018-01-22 21:04 eric_yi 阅读(253) 评论(0) 推荐(0)

高性能爬虫原理与应用

摘要：目录：一高性能爬虫本质二高性能爬虫相关理论点三 Python中高性能相关模块 3.1 asyncio模块 3.2 aiohttp模块 3.3 gevent模块 3.4 grequest模块 3.5 twisted 3.6 tornado 3.1 asyncio模块 3.2 aiohttp模阅读全文

posted @ 2018-01-22 19:24 eric_yi 阅读(674) 评论(0) 推荐(0)

MongoDB基础知识

摘要：目录：一简介二 MongoDB基础知识三安装四基本数据类型五 CRUD操作六可视化工具七 pymongo 一简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库 1、易用性 MongoDB是一个面向文档（document-oriented）的数据库，而不是关系型数据阅读全文

posted @ 2018-01-19 16:57 eric_yi 阅读(928) 评论(0) 推荐(0)

Eric

随笔分类 - 爬虫

公告