摘要: scrapy engine(引擎):负责spider,ItemPipeline,Downloader,Scheduler中间的通讯,信号,数据传递等 Scheduler(调度器):它负责接受引擎发送过来的request请求,并按照一定的方式进行整理排列,入队,当引擎需要是交还给引擎 Download 阅读全文
posted @ 2018-11-02 12:15 SilentKiller 阅读(113) 评论(0) 推荐(0)
摘要: 步骤 1.建立工程和 Spider 模版 scrapy startproject 名称 cd 名称 scrapy genspider 爬虫名称 爬取的地址 进一步修改 spiders/爬虫文件 2.编写 Spider 配置 爬虫文件 修改对返回页面的处理 修改对新增URL爬取请求的处理 3.编写 I 阅读全文
posted @ 2018-11-02 12:00 SilentKiller 阅读(230) 评论(0) 推荐(0)
摘要: ndarray数组的创建方法 1.从python中的列表,元组等类型创建ndarray数组 x = np.array(list/tuple) x = np.array(list/tuple,dtype=np.float32) 当np.array() 不指定dtype时,Numpy 将根据数据情况关联 阅读全文
posted @ 2018-11-02 11:49 SilentKiller 阅读(1554) 评论(0) 推荐(0)
摘要: import numpy as np Numpy 一元函数 对ndarray中的数据执行元素级运算的函数 np.abs(x) np.fabs(x) 计算数组各元素的绝对值 np.sqrt(x) 计算数组各元素的平方根 np.square(x) 计算数组各元素的的平方 np.log(x) np.log 阅读全文
posted @ 2018-11-02 11:40 SilentKiller 阅读(287) 评论(0) 推荐(0)
摘要: 主题思想 摘要:有损地去数据特征的过程 基本统计(含排序) 分步/累计统计 数据特征 相关性,周期性等 数据挖掘(形成知识) IPython的%魔术命令 %magic 显示所有魔术命令 %hist IPython命令的输入历史 %db 异常发生后自动进入调试器 %reset 删除当前命名空间中的全部 阅读全文
posted @ 2018-11-02 11:30 SilentKiller 阅读(204) 评论(0) 推荐(0)
摘要: pandas 统计描述 一个强大的分析结构化数据额的工具集 基础是Numpy,提供了高性能矩阵的运算 应用数据挖掘,数据分析 如,学生成绩分析,股票数据分析等 提供数据清洗功能 Series 类似一维数组的对象 通过list构建Series import pandas as pdser_obj = 阅读全文
posted @ 2018-11-02 11:16 SilentKiller 阅读(252) 评论(0) 推荐(0)