Fork me on GitHub

随笔分类 -  Python

使用Python进行数据分析
摘要:简介 python可以做很多事情,虽然它的强项在于进行向量运算和机器学习、深度学习等方面。但是在某些时候,我们仍然需要使用python对外提供web服务。 比如我们现在有一个用python写好的模型算法,这个模型算法需要接收前端的输入,然后进行模拟运算,最终得到最后的输出。这个流程是一个典型的web 阅读全文
posted @ 2023-02-06 17:24 flydean 阅读(979) 评论(0) 推荐(0)
摘要:简介 为了更好的熟练掌握pandas在实际数据分析中的应用,今天我们再介绍一下怎么使用pandas做美国餐厅评分数据的分析。 餐厅评分数据简介 数据的来源是UCI ML Repository,包含了一千多条数据,有5个属性,分别是: userID: 用户ID placeID:餐厅ID rating: 阅读全文
posted @ 2022-02-25 13:50 flydean 阅读(503) 评论(2) 推荐(2)
摘要:简介 1912年4月15日,号称永不沉没的泰坦尼克号因为和冰山相撞沉没了。因为没有足够的救援设备,2224个乘客中有1502个乘客不幸遇难。事故已经发生了,但是我们可以从泰坦尼克号中的历史数据中发现一些数据规律吗?今天本文将会带领大家灵活的使用pandas来进行数据分析。 泰坦尼特号乘客数据 我们从 阅读全文
posted @ 2022-02-24 12:42 flydean 阅读(558) 评论(1) 推荐(0)
摘要:简介 时间应该是在数据处理中经常会用到的一种数据类型,除了Numpy中datetime64 和 timedelta64 这两种数据类型之外,pandas 还整合了其他python库比如 scikits.timeseries 中的功能。 时间分类 pandas中有四种时间类型: Date times 阅读全文
posted @ 2021-10-11 09:14 flydean 阅读(1115) 评论(1) 推荐(1)
摘要:简介 本文将会以图表的形式为大家讲解怎么在NumPy中进行多维数据的线性代数运算。 多维数据的线性代数通常被用在图像处理的图形变换中,本文将会使用一个图像的例子进行说明。 图形加载和说明 熟悉颜色的朋友应该都知道,一个颜色可以用R,G,B来表示,如果更高级一点,那么还有一个A表示透明度。通常我们用一 阅读全文
posted @ 2021-07-29 10:28 flydean 阅读(330) 评论(1) 推荐(0)
摘要:简介 pandas有一个option系统可以控制pandas的展示情况,一般来说我们不需要进行修改,但是不排除特殊情况下的修改需求。本文将会详细讲解pandas中的option设置。 常用选项 pd.options.display 可以控制展示选项,比如设置最大展示行数: In [1]: impor 阅读全文
posted @ 2021-07-22 09:21 flydean 阅读(911) 评论(0) 推荐(1)
摘要:简介 如果数据中有很多NaN的值,存储起来就会浪费空间。为了解决这个问题,Pandas引入了一种叫做Sparse data的结构,来有效的存储这些NaN的值。 Spare data的例子 我们创建一个数组,然后将其大部分数据设置为NaN,接着使用这个数组来创建SparseArray: In [1]: 阅读全文
posted @ 2021-07-20 09:30 flydean 阅读(873) 评论(1) 推荐(0)
摘要:简介 在数据统计中,经常需要进行一些范围操作,这些范围我们可以称之为一个window 。Pandas提供了一个rolling方法,通过滚动window来进行统计计算。 本文将会探讨一下rolling中的window用法。 滚动窗口 我们有5个数,我们希望滚动统计两个数的和,那么可以这样: In [1 阅读全文
posted @ 2021-07-19 09:13 flydean 阅读(870) 评论(0) 推荐(0)
摘要:Pandas高级教程之:GroupBy用法 简介 pandas中的DF数据类型可以像数据库表格一样进行groupby操作。通常来说groupby操作可以分为三部分:分割数据,应用变换和和合并数据。 本文将会详细讲解Pandas中的groupby操作。 分割数据 分割数据的目的是将DF分割成为一个个的 阅读全文
posted @ 2021-07-12 09:15 flydean 阅读(19720) 评论(1) 推荐(0)
摘要:简介 数据分析中经常会用到很多统计类的方法,本文将会介绍Pandas中使用到的统计方法。 变动百分百 Series和DF都有一个pct_change() 方法用来计算数据变动的百分比。这个方法在填充NaN值的时候特别有用。 ser = pd.Series(np.random.randn(8)) se 阅读全文
posted @ 2021-07-08 09:09 flydean 阅读(828) 评论(0) 推荐(0)
摘要:简介 python中matplotlib是非常重要并且方便的图形化工具,使用matplotlib可以可视化的进行数据分析,今天本文将会详细讲解Pandas中的matplotlib应用。 基础画图 要想使用matplotlib,我们需要引用它: In [1]: import matplotlib.py 阅读全文
posted @ 2021-07-07 09:08 flydean 阅读(16849) 评论(0) 推荐(2)
摘要:简介 不管是做科学计算还是编写应用程序,都需要使用到一些基本的数据结构,比如列表,元组,字典等。 本文将会详细讲解Python中的这些基础数据结构。 列表 列表也就是list,可以用方括号来表示: In [40]: ages = [ 10, 14, 18, 20 ,25] In [41]: ages 阅读全文
posted @ 2021-06-30 22:11 flydean 阅读(616) 评论(0) 推荐(1)
摘要:简介 Pandas中有一种特殊的数据类型叫做category。它表示的是一个类别,一般用在统计分类中,比如性别,血型,分类,级别等等。有点像java中的enum。 今天给大家详细讲解一下category的用法。 创建category 使用Series创建 在创建Series的同时添加dtype="c 阅读全文
posted @ 2021-06-28 15:42 flydean 阅读(1525) 评论(0) 推荐(1)
摘要:简介 在数据处理中,Pandas会将无法解析的数据或者缺失的数据使用NaN来表示。虽然所有的数据都有了相应的表示,但是NaN很明显是无法进行数学运算的。 本文将会讲解Pandas对于NaN数据的处理方法。 NaN的例子 上面讲到了缺失的数据会被表现为NaN,我们来看一个具体的例子: 我们先来构建一个 阅读全文
posted @ 2021-06-24 09:30 flydean 阅读(541) 评论(0) 推荐(0)
摘要:简介 在1.0之前,只有一种形式来存储text数据,那就是object。在1.0之后,添加了一个新的数据类型叫做StringDtype 。今天将会给大家讲解Pandas中text中的那些事。 创建text的DF 先看下常见的使用text来构建DF的例子: In [1]: pd.Series(['a' 阅读全文
posted @ 2021-06-23 09:27 flydean 阅读(528) 评论(0) 推荐(0)
摘要:简介 使用Pandas的pivot方法可以将DF进行旋转变换,本文将会详细讲解pivot的秘密。 使用Pivot pivot用来重组DF,使用指定的index,columns和values来对现有的DF进行重构。 看一个Pivot的例子: 通过pivot变化,新的DF使用foo中的值作为index, 阅读全文
posted @ 2021-06-15 09:07 flydean 阅读(1272) 评论(0) 推荐(0)
摘要:简介 Pandas提供了很多合并Series和Dataframe的强大的功能,通过这些功能可以方便的进行数据分析。本文将会详细讲解如何使用Pandas来合并Series和Dataframe。 使用concat concat是最常用的合并DF的方法,先看下concat的定义: pd.concat(ob 阅读全文
posted @ 2021-06-14 20:34 flydean 阅读(19277) 评论(0) 推荐(0)
摘要:简介 本文将会讲解Pandas中基本的数据类型Series和DataFrame,并详细讲解这两种类型的创建,索引等基本行为。 使用Pandas需要引用下面的lib: In [1]: import numpy as np In [2]: import pandas as pd Series Serie 阅读全文
posted @ 2021-06-11 08:51 flydean 阅读(490) 评论(0) 推荐(0)
摘要:简介 如果我们想要运行Python,通常有两种方式,第一种方式就是在Python或者IPython的解释器环境中进行交互式运行,还有一种方式就是程序员最喜欢的编写.py文件,在文件中编写python代码,然后运行。 如果我们想写一篇关于Python的文章,文章里面有代码,还希望代码能够在当前页面运行 阅读全文
posted @ 2021-06-09 20:44 flydean 阅读(2002) 评论(0) 推荐(0)
摘要:Pandas之:Pandas高级教程以铁达尼号真实数据为例 简介 今天我们会讲解一下Pandas的高级教程,包括读写文件、选取子集和图形表示等。 读写文件 数据处理的一个关键步骤就是读取文件进行分析,然后将分析处理结果再次写入文件。 Pandas支持多种文件格式的读取和写入: In [108]: p 阅读全文
posted @ 2021-06-07 09:14 flydean 阅读(589) 评论(0) 推荐(0)