随笔分类 -  python数据分析

摘要:第二篇中,学习了IPython shell和Jupyter notebook的基础。本篇中,继续探索IPython更深层次的功能,可以从控制台或在jupyter使⽤。 一、使⽤命令历史 Ipython维护了⼀个位于磁盘的⼩型数据库,⽤于保存执⾏的每条指令。它的⽤途有: 只⽤最少的输⼊,就能搜索、补全 阅读全文
posted @ 2019-01-14 15:50 远方那一抹云 阅读(476) 评论(0) 推荐(0)
摘要:在这篇中,将会深⼊NumPy库的数组计算。这会包括ndarray更内部的细节,和更⾼级的数组操作和算法。一、ndarray对象的内部机理NumPy的ndarray提供了⼀种将同质数据块(可以是连续或跨越)解释为多维数组对象的⽅式。正如你之前所看到的那样,数据类型(dtype)决定了数据的解释⽅式,⽐如浮点数、整数、布尔值等。ndarray如此强⼤的部分原因是所有数组对象都是数据块的⼀个跨度视图(s... 阅读全文
posted @ 2019-01-14 14:33 远方那一抹云 阅读(674) 评论(0) 推荐(0)
摘要:经过前面的学习,下面来看⼀些真实世界的数据集。对于每个数据集,我们会⽤之前介绍的⽅法,从原始数据中提取有意义的内容。展示的⽅法适⽤于其它数据集,也包括你的。本篇包含了⼀些各种各样的案例数据集,可以⽤来练习。 案例数据集可以在Github仓库找到。 一、来⾃Bitly的USA.gov数据 2011年, 阅读全文
posted @ 2019-01-08 17:30 远方那一抹云 阅读(2080) 评论(0) 推荐(0)
摘要:前面已经介绍了Python数据分析的编程基础。数据分析师和科学家总是在数据规整和准备上花费⼤量时间,前面部分的重点在于掌握这些功能。开发模型选⽤什么库取决于应⽤本身。许多统计问题可以⽤简单⽅法解决,⽐如普通的最⼩⼆乘回归,其它问题可能需要复杂的机器学习⽅法。幸运的是,Python已经成为了运⽤这些分析⽅法的语⾔之⼀,因此读完这些文章,你可以探索许多⼯具。本篇中,首先回顾⼀些pandas的特点,在你... 阅读全文
posted @ 2019-01-08 12:59 远方那一抹云 阅读(2268) 评论(0) 推荐(0)
摘要:前⾯部分关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合⾼级⽤户的功能。本篇就深⼊学习pandas的⾼级功能。 一、分类数据 接下来要说的是pandas的分类类型。通过使⽤它,可提⾼性能和内存的使⽤率。后面还会介绍⼀些在统计和机器学习 阅读全文
posted @ 2019-01-03 10:18 远方那一抹云 阅读(464) 评论(0) 推荐(0)
摘要:时间序列(time series)数据是⼀种重要的结构化数据形式,应⽤于多个领域,包括⾦融学、经济学、⽣态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成⼀段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(⽐如每15秒、每5分钟、每⽉出现⼀次)。时间 阅读全文
posted @ 2018-12-28 14:55 远方那一抹云 阅读(982) 评论(0) 推荐(0)
摘要:对数据集进⾏分组并对各组应⽤⼀个函数(⽆论是聚合还是转换),通常是数据分析⼯作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或⽣成透视表。pandas提供了⼀个灵活⾼效的gruopby功能,它使你能以⼀种⾃然的⽅式对数据集进⾏切⽚、切块、摘要等操作。 关系型数据库和SQL(St 阅读全文
posted @ 2018-12-26 11:16 远方那一抹云 阅读(1057) 评论(0) 推荐(0)
摘要:信息可视化(也叫绘图)是数据分析中最重要的⼯作之⼀。它可能是探索过程的⼀部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做⼀个可交互的数据可视化也许是⼯作的最终⽬标。Python有许多库进⾏静态或动态的数据可视化,但这⾥主要关注于matplotlib(http://matplotlib.org/)和基于它的库。matplotlib是⼀个⽤于创建出版质量图表的桌⾯绘图... 阅读全文
posted @ 2018-12-20 13:29 远方那一抹云 阅读(977) 评论(0) 推荐(0)
摘要:在许多应⽤中,数据可能分散在许多⽂件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的⽅法。⾸先,介绍pandas的层次化索引,它⼴泛⽤于以上操作。然后,深⼊介绍了⼀些特殊的数据操作。 一、层次化索引 层次化索引(hierarchical indexing)是pandas的⼀项重 阅读全文
posted @ 2018-12-19 17:33 远方那一抹云 阅读(691) 评论(0) 推荐(0)
摘要:在数据分析和建模的过程中,要花很多时间在数据准备上:加载、清理、转换以及重塑。这些⼯作会占到分析师时间的80%或更多。有时,存储在⽂件和数据库中的数据的格式不适合某个特定的任务。pandas和内置的Python标准库提供了⼀组⾼级的、灵活的、快速的⼯具,可以让你轻松地将数据规变为想要的格式。接下来会 阅读全文
posted @ 2018-12-17 15:50 远方那一抹云 阅读(933) 评论(0) 推荐(0)
摘要:输⼊输出通常可以划分为⼏个⼤类:读取⽂本⽂件和其他更⾼效的磁盘存储格式,加载数据库中的数据,利⽤Web API操作⽹络资源。 一、读写文本格式的数据 pandas提供了⼀些⽤于将表格型数据读取为DataFrame对象的函数。表6-1对它们进⾏了总结,其中read_csv和read_table可能会是 阅读全文
posted @ 2018-12-13 14:30 远方那一抹云 阅读(812) 评论(0) 推荐(0)
摘要:pandas含有使数据清洗和分析⼯作变得更快更简单的数据结构和操作⼯具。pandas经常和其它⼯具⼀同使⽤,如数值计算⼯具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和 阅读全文
posted @ 2018-12-09 00:23 远方那一抹云 阅读(616) 评论(0) 推荐(0)
摘要:NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。⼤多数提供科学计算的包都是⽤NumPy的数组作为构建基础。NumPy的部分功能如下: ndarray,⼀个具有⽮量算术运算和复杂⼴播能⼒的快速且节省空间的多维数组。 ⽤于对整组数据进⾏快速运算的标准数学函数(⽆ 阅读全文
posted @ 2018-12-05 15:48 远方那一抹云 阅读(759) 评论(0) 推荐(0)
摘要:一、数据结构和序列:Python的数据结构简单⽽强⼤。通晓它们才能成为熟练的Python程序员。 1、元组:元组是⼀个固定⻓度,不可改变的Python序列对象。创建元组的最简单⽅式,是⽤逗号分隔⼀列值:tup = 4, 5, 6tup # 输出:(4, 5, 6)当⽤复杂的表达式定义元组,最好将值放 阅读全文
posted @ 2018-12-03 15:05 远方那一抹云 阅读(746) 评论(0) 推荐(0)
摘要:一、IPython解释器 字典解析式:import numpy as npdata = {i:np.random.randn() for i in range(7)} 1、运⾏Jupyter NotebookJupyter Notebook需要与内核互动,内核是Jupyter与其它编程语⾔的交互编程 阅读全文
posted @ 2018-11-30 16:38 远方那一抹云 阅读(986) 评论(0) 推荐(0)
摘要:一、安装或升级Python包 1、安装Anaconda中的Python包conda install package_name 或者pip install package_name ⽤conda update命令升级包conda update package_name 或者pip install -- 阅读全文
posted @ 2018-11-29 23:11 远方那一抹云 阅读(236) 评论(0) 推荐(0)