随笔分类 -  920.数据分析

Python中的Matplotlib绘图
摘要:Matplotlib 是一个 Python 的 2D绘图库,通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。 http://matplotlib.org 用于创建出版质量图表的绘图工具库 目的是为Python构建一个Matlab式的绘图 阅读全文

posted @ 2020-04-04 14:52 LoaderMan 阅读(611) 评论(0) 推荐(0)

数据分析案例:统计电影分类的情况
摘要:代码: # coding=utf-8 import pandas as pd from matplotlib import pyplot as plt import numpy as np file_path = "./IMDB-Movie-Data.csv" df = pd.read_csv(fi 阅读全文

posted @ 2020-04-03 20:05 LoaderMan 阅读(3529) 评论(0) 推荐(0)

数据清洗、合并、转化和重构
摘要:数据清洗 数据清洗是数据分析关键的一步,直接影响之后的处理工作 数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘? 是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作 处理缺失数据:pd.fillna(),pd.dropna() 数据连接(pd.merge 阅读全文

posted @ 2020-04-01 20:31 LoaderMan 阅读(799) 评论(0) 推荐(0)

Pandas分组与聚合
摘要:分组 (groupby) 对数据集进行分组,然后对每组进行统计分析 SQL能够对数据进行过滤,分组聚合 pandas能利用groupby进行更加复杂的分组运算 分组运算过程:split->apply->combine 拆分:进行分组的根据 应用:每个分组运行的计算规则 合并:把每个分组的计算结果合并 阅读全文

posted @ 2020-03-31 22:01 LoaderMan 阅读(1914) 评论(0) 推荐(0)

聚类模型:K-Means
摘要:聚类(clustering)属于无监督学习(unsupervised learning) 无类别标记 在线 demo:http://syskall.com/kmeans.js K-Means算法 数据挖掘十大经典算法之一 算法接收参数k;然后将样本点划分为k个聚类;同一聚类中的样本相似度较高;不同聚 阅读全文

posted @ 2020-03-31 21:59 LoaderMan 阅读(1021) 评论(0) 推荐(0)

pandas层级索引和统计计算
摘要:层级索引(hierarchical indexing) 下面创建一个Series, 在输入索引Index时,输入了由两个子list组成的list,第一个子list是外层索引,第二个list是内层索引。 import pandas as pd import numpy as np ser_obj = 阅读全文

posted @ 2020-03-30 20:32 LoaderMan 阅读(1084) 评论(0) 推荐(0)

Pandas的对齐运算和函数
摘要:Pandas的对齐运算 是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN Series的对齐运算 1. Series 按行、索引对齐 s1 = pd.Series(range(10, 20), index=range(10)) s2 = pd.Serie 阅读全文

posted @ 2020-03-29 19:18 LoaderMan 阅读(790) 评论(0) 推荐(0)

Pandas数据结构和索引操作
摘要:什么是Pandas? Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。 Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之 阅读全文

posted @ 2020-03-28 14:06 LoaderMan 阅读(1823) 评论(0) 推荐(0)

数学计算工具库-Numpy
摘要:Numpy(Numerical Python) Numpy:提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于多维数组(矩阵)处理的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。本身是由C语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是 阅读全文

posted @ 2020-03-26 20:09 LoaderMan 阅读(612) 评论(0) 推荐(0)

什么是数据分析
摘要:百度百科:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 简言之:数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们作出判断, 阅读全文

posted @ 2020-03-25 21:06 LoaderMan 阅读(1783) 评论(0) 推荐(0)

导航