04 2018 档案

摘要:数据行业有一句很经典的话——“垃圾进,垃圾出”(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没有价值的。而对于数据分析挖掘而言,只有一份高质量的基础数据,才可能得到正确、有用的结论。本文主要介绍数据质量检查的基本思 阅读全文
posted @ 2018-04-22 21:49 hbsygfz 阅读(5448) 评论(0) 推荐(0)
摘要:本文主要对Python如何读取结构化数据进行总结梳理,涵盖从文本文件,尤其是excel文件(用于离线数据探索分析),以及结构化数据库(以Mysql为例)中读取数据等内容。 约定: import numpy as np import pandas as pd 1、从文本文件中读取 (1)使用Pytho 阅读全文
posted @ 2018-04-19 15:45 hbsygfz 阅读(1763) 评论(1) 推荐(0)
摘要:Pandas有两大数据结构:Series和DataFrame,之前已对Series对象进行了介绍( "链接" ),本文主要对DataFrame对象的常用用法进行总结梳理。 约定: import pandas as pd 1、什么是DataFrame对象? 一个二维表,有行索引(index)和列索引( 阅读全文
posted @ 2018-04-19 10:19 hbsygfz 阅读(1125) 评论(1) 推荐(0)
摘要:Pandas是Python下最强大的数据分析和探索库,是基于Numpy库构建的,支持类似SQL的结构化数据的增、删、查、改,具有丰富的数据处理函数。Pandas有两大数据结构:Series和DataFrame,本文主要对Series的常用用法进行总结梳理。 约定: import pandas as 阅读全文
posted @ 2018-04-16 21:14 hbsygfz 阅读(1858) 评论(0) 推荐(0)