numpy基本操作

摘要: numpy基本操作 1、 使用numpy import numpy as np #后续使用numpy时可以用np代替numpy 1.1 创建一维数组 a=np.array([1,2,3,4]) 1.2 创建二维数组 a=np.array([[1,2,3,4],[5,6,7,8]]) 2、函数操作 2 阅读全文
posted @ 2019-05-26 17:47 coldpills 阅读(400) 评论(0) 推荐(0) 编辑

爬取商品信息、写入数据库操作

摘要: 爬取商品信息并写入数据库操作 本次爬取当当网图书程序设计类书籍,爬取信息包括书名、链接和评论,并写入mysql。 1、首先修改items.py title存储书名、link存储商品链接、comment存储评论数 2、其次修改dd.py 首先要用xpath提取商品的信息,其次还需要构造程序设计类书籍每 阅读全文
posted @ 2019-05-19 00:26 coldpills 阅读(635) 评论(0) 推荐(0) 编辑

模块简介与matplotlib基础

摘要: 模块简介与matplotlib基础 1、基本概念 1.1数据分析 对已知的数据进行分析,提取出一些有价值的信息。 1.2数据挖掘 对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息。 1.3数据挖掘过程 定义目标 获取数据(爬虫采集或下载统计网站发布的数据) 数据探索 数据预处理(数据清洗【去 阅读全文
posted @ 2019-05-12 11:44 coldpills 阅读(172) 评论(0) 推荐(0) 编辑

简单scrapy爬虫实例

摘要: 简单scrapy爬虫实例 流程分析 抓取内容:网站课程 页面:https://edu.hellobi.com 数据:课程名、课程链接及学习人数 观察页面url变化规律以及页面源代码帮助我们获取所有数据 1、scrapy爬虫的创建 在pycharm的Terminal中输入以下命令: 创建scrapy项 阅读全文
posted @ 2019-05-05 17:03 coldpills 阅读(667) 评论(2) 推荐(0) 编辑

抓包分析、多线程爬虫及xpath学习

摘要: 1、抓包分析 1.1 Fiddler安装及基本操作 由于很多网站采用的是HTTPS协议,而fiddler默认不支持HTTPS,先通过设置使fiddler能抓取HTTPS网站,过程可参考(https://www.cnblogs.com/liulinghua90/p/9109282.html)。使用cl 阅读全文
posted @ 2019-04-27 22:41 coldpills 阅读(425) 评论(1) 推荐(0) 编辑

urllib库的应用及简单爬虫的编写

摘要: 1、urllib库基础 1.1爬虫的异常处理 常见状态码及含义 301 Moved Permanently:重定向到新的URL,永久性 302 Found:重定向到临时的URL,非永久性 304 Not Modified:请求的资源未更新 400 Bad Request:非法请求 401 Unaut 阅读全文
posted @ 2019-04-20 23:37 coldpills 阅读(212) 评论(0) 推荐(0) 编辑

Python基础知识点小结

摘要: 1、Python基础知识 在Python中的两种注释方法,分别是#注释和引号(''' ''')注释,#注释类似于C语言中的//注释,引号注释类似于C语言中的/* */注释。接着在Python中标识符第一次字符必须是字母或下划线,除第一个字符意外其他的字符可以使字母、下划线和数字。在Python中的数 阅读全文
posted @ 2019-04-13 12:34 coldpills 阅读(248) 评论(2) 推荐(0) 编辑