coldpills

numpy基本操作

摘要： numpy基本操作 1、使用numpy import numpy as np #后续使用numpy时可以用np代替numpy 1.1 创建一维数组 a=np.array([1,2,3,4]) 1.2 创建二维数组 a=np.array([[1,2,3,4],[5,6,7,8]]) 2、函数操作 2 阅读全文

posted @ 2019-05-26 17:47 coldpills 阅读(400) 评论(0) 推荐(0) 编辑

爬取商品信息、写入数据库操作

摘要：爬取商品信息并写入数据库操作本次爬取当当网图书程序设计类书籍，爬取信息包括书名、链接和评论，并写入mysql。 1、首先修改items.py title存储书名、link存储商品链接、comment存储评论数 2、其次修改dd.py 首先要用xpath提取商品的信息，其次还需要构造程序设计类书籍每阅读全文

posted @ 2019-05-19 00:26 coldpills 阅读(635) 评论(0) 推荐(0) 编辑

模块简介与matplotlib基础

摘要：模块简介与matplotlib基础 1、基本概念 1.1数据分析对已知的数据进行分析，提取出一些有价值的信息。 1.2数据挖掘对大量的数据进行分析与挖掘，得到一些未知的，有价值的信息。 1.3数据挖掘过程定义目标获取数据（爬虫采集或下载统计网站发布的数据）数据探索数据预处理（数据清洗【去阅读全文

posted @ 2019-05-12 11:44 coldpills 阅读(172) 评论(0) 推荐(0) 编辑

简单scrapy爬虫实例

摘要：简单scrapy爬虫实例流程分析抓取内容：网站课程页面：https://edu.hellobi.com 数据：课程名、课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 1、scrapy爬虫的创建在pycharm的Terminal中输入以下命令：创建scrapy项阅读全文

posted @ 2019-05-05 17:03 coldpills 阅读(667) 评论(2) 推荐(0) 编辑

抓包分析、多线程爬虫及xpath学习

摘要： 1、抓包分析 1.1 Fiddler安装及基本操作由于很多网站采用的是HTTPS协议，而fiddler默认不支持HTTPS，先通过设置使fiddler能抓取HTTPS网站，过程可参考（https://www.cnblogs.com/liulinghua90/p/9109282.html）。使用cl 阅读全文

posted @ 2019-04-27 22:41 coldpills 阅读(425) 评论(1) 推荐(0) 编辑

urllib库的应用及简单爬虫的编写

摘要： 1、urllib库基础 1.1爬虫的异常处理常见状态码及含义 301 Moved Permanently：重定向到新的URL，永久性 302 Found：重定向到临时的URL，非永久性 304 Not Modified：请求的资源未更新 400 Bad Request：非法请求 401 Unaut 阅读全文

posted @ 2019-04-20 23:37 coldpills 阅读(212) 评论(0) 推荐(0) 编辑

Python基础知识点小结

摘要： 1、Python基础知识在Python中的两种注释方法，分别是#注释和引号（''' '''）注释，#注释类似于C语言中的//注释，引号注释类似于C语言中的/* */注释。接着在Python中标识符第一次字符必须是字母或下划线，除第一个字符意外其他的字符可以使字母、下划线和数字。在Python中的数阅读全文

posted @ 2019-04-13 12:34 coldpills 阅读(248) 评论(2) 推荐(0) 编辑