摘要: 数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。 简单的函数变换包括平方、开方、取对数查分运算等,可以将不具有正态分布的数据变换成具有正态分布的数据,对于时间序列分析,有时简单的对数变换和差分运算就可以将非平稳序列转换成平稳序列。 数据规范化 1、最大——最小规范化 :X *=(x-min 阅读全文
posted @ 2018-03-11 15:08 CCColby 阅读(7694) 评论(3) 推荐(0) 编辑
摘要: 当一些网站使用了动态加载我们该如何搞定呢? 有两种方法:其一,直接在JavaScript里面采集内容,但是操作起来十分麻烦;其二,使用python的第三方库来运行JavaScript,直接采集你在浏览器里面看到的内容。 这时候就用到了python的一个自动化测试工具Selenium,它可以根据我们的 阅读全文
posted @ 2018-03-10 11:57 CCColby 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 数据清洗主要是删除原始数据集中的无关数据、重复数据,过滤与挖掘主题无关的数据,处理缺失值和异常值。 缺失值的处理办法 1、不处理 2、删除记录 3、数据插补 a、插补均值、中位数、众数 b、使用固定值,用一个常量替换。如一个普通工人的工资缺失,可以按照当地的工资标准给值 c、最近插补:利用与缺失样本 阅读全文
posted @ 2018-03-08 16:57 CCColby 阅读(2036) 评论(0) 推荐(0) 编辑
摘要: 数据特征分析包括以下几个方面的内容: 1、分布分析 a、定量数据分布分析:绘制频率直方分布图 b、定性数据分布分析:根据变量的分类类型分组,绘制饼图和条形图来描述分布 2、对比分析 a、绝对数对比 b、相对数对比(如结构相对数、比例相对数) 3、统计量分析 a、集中趋势度量:均值、中位数、众数 b、 阅读全文
posted @ 2018-03-05 10:18 CCColby 阅读(3561) 评论(0) 推荐(0) 编辑
摘要: Pandas数据结构 与R语言一样,python也常用于数据分析。除了常用的科学计算库Numpy和绘图库matplotlib之外,pandas也给python提供了强大助力。 首先要认识pandas的两种强大的数据结构Series和DataFrame。其中Series就是序列,类似一维数组,索引在左 阅读全文
posted @ 2018-03-04 20:17 CCColby 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 首先要分清楚这两个概念。 进程:一个具有独立功能的程序关于某个数据集合的一次运行活动。其一,它是一个实体;其二,是一个“执行中的程序”。 线程:进程里包含的执行单元叫线程,一个进程可以包含多个线程。它是cpu的基本调度单位。 一个进程的内存空间是可以被它的线程共享的,但是一个线程在使用时,其它线程必 阅读全文
posted @ 2018-03-03 16:36 CCColby 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 前一篇文章,介绍了如何用matplotlib绘制一些简单的图。通常在图上需要添加很多的标注信息,如添加图例。 前面我们都是用plot函数绘制线图。下面来绘制柱状图。 当然我们绘制的图不会就这样简陋: 下面是饼状图的绘制,这个例子来源于官方使用指南: 效果图如下: matplotlib的绘图功能是能够 阅读全文
posted @ 2018-03-01 21:31 CCColby 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章,简单介绍了beautifulsoup这个解析器,下面来了解一个我非常喜欢的工具——Xpath。 Xpath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。推荐各位使用Google浏览器吧Chrome,安装一个插件工具Xpath Helper。文档传送门:ht 阅读全文
posted @ 2018-02-28 14:09 CCColby 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 前两篇文章简单介绍了科学计算Numpy的一些常用方法,还有一些其他内容,会在后面的实例中学习。下面介绍另一个模块——Matplotlib。 Matplotlib是一个Python 2D绘图库,试图让复杂的绘图可视化工作变得简单。只需几行代码即可生成绘图,直方图,功率谱,条形图,误差图,散点图等2D图 阅读全文
posted @ 2018-02-24 20:42 CCColby 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 今天介绍一个非常好用的python爬虫库——beautifulsoup4。beautifulsoup4的中文文档参考网址是:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ 首先使用pip安装这个库,当然还要用到lxml这个解析器,配合使用可以很方便 阅读全文
posted @ 2018-02-24 12:37 CCColby 阅读(861) 评论(0) 推荐(0) 编辑