随笔分类 - python数据分析
numpy pandas 是数据分析利器
摘要:Numpy的 tile() 函数,就是将原矩阵横向、纵向地复制。tile 是瓷砖的意思,顾名思义,这个函数就是把数组像瓷砖一样铺展开来。 举个例子,原矩阵: 横向: >>> import numpy as np >>> d2= np.array([[1,2], [3, 4]]) >>> d2 arr
阅读全文
摘要:官网说 .r_是沿第一轴连接(在数学中第一轴是行), Translates slice objects to concatenation along the first axis .c_是沿第二轴连接(列) Translates slice objects to concatenation alon
阅读全文
摘要:用法介绍 transform用法 pandas.Series.transform Call func on self producing a Series with transformed values. Produced Series will have same axis length as s
阅读全文
摘要:数据类型object与category比较 category数据类型 官方文档是这样描述的: Categoricals 是 pandas 的一种数据类型,对应着被统计的变量。 1.Categoricals 是由固定的且有限数量的变量组成的。比如:性别、社会阶层、血型、国籍、观察时段、赞美程度等等。
阅读全文
摘要:方法详解: pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None “Unpivots” a DataFrame from wide format to l
阅读全文
摘要:比赛介绍 这是M5预测挑战赛的两个互补比赛之一。你能尽可能准确地估计沃尔玛在美国销售的各种产品的单位销售额吗?如果你对估计同一系列已实现值的不确定性分布感兴趣,一定要查看它的竞争对手 一家商店一年内每月能卖多少露营用具?对于外行来说,在这个水平上计算销售额似乎和预测天气一样困难。这两种预测都依赖科学
阅读全文
摘要:使用pandarallel模块对 Pandas加速 python的dataFrame确实好用,但是明显只能单核运算 使用pandas,当您运行以下行时: # Standard apply df.apply(func) 得到这个CPU使用率: 即使计算机有多个CPU,也只有一个完全专用于计算。 最近受
阅读全文
摘要:1.函数:空值判断 1)判断数值是否为空用 pd.isna,pd.isnull,np.isnan2)判断字符串是否为空用 pd.isna,pd.isnull;3)判断时间是否为空用 pd.isna,pd.isnull,np.isnat 参数:obj:标量或数组 返回:布尔或布尔数组 说明: 1.NA
阅读全文
摘要:现象: Numpy区分了str和object类型,其中dtype(‘S’)和dtype(‘O’)分别对应于str和object. 然而,pandas缺乏这种区别 str和object类型都对应dtype(‘O’)类型,即使强制类型为dtype(‘S’)也无济于事 >>> import pandas
阅读全文
摘要:当利用pandas进行数据处理的时候,经常会遇到数据类型的问题,当拿到数据的时候,首先需要确定拿到的是正确类型的数据,一般通过数据类型的转化,这篇文章就介绍pandas里面的数据类型(data types也就是常用的dtyps),以及pandas与numpy之间的数据对应关系。 dataframe中
阅读全文
摘要:补坑。有的时候挖完了坑就忘了填。哈哈。这种写了开头,没写完或者没写的。博客界称这样博主为太监。下面没有了。哈哈 其实我有一篇文章分析过pandas中的null空值,np.nan,还有None等数据判断方式。见数据判断 我们这里注意看下字符串数据类型,当然字符串数据类型在pandas 是以object
阅读全文
摘要:lag和lead VS shift 该函数的格式如下: 第一个参数为列名, 第二个参数为往上第n行(可选,默认为1), 第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) lag lag(字段名,N,默认值) over(partition by 分组字段 order
阅读全文
摘要:import pandas as pd data = pd.read_csv(r"test数据.csv", engine="python", encoding="utf-8") def pprint(row): row["extra"]=1 print(row) return row data =
阅读全文
摘要:Expecting ',' delimiter: line 1 column 2674 json_dict = json.loads(row[json_columns].replace("'","\"")) 为什么要replace("'","\"")见博客 但是依旧报错 我用try catch的方法
阅读全文
摘要:python执行json.loads(…)时遇到的错误json格式的文本中应该用双引号,而不是单引号,如: brief=json.loads(row["brief"].replace("'","\"")) 把单引号替换成双引号即可。
阅读全文
摘要:numpy.array插入一行或一列 import numpy as np a = np.array([[1,2,3],[4,5,6],[7,8,9]]) b = np.array([[0,0,0]]) c = np.insert(a, 0, values=b, axis=0) d = np.ins
阅读全文
摘要:问题 1. 将DataFrame数据保存到mysql后,添加索引出现错误提示: BLOB/TEXT column used in key specification without a key length 2. mysql> CREATE INDEX credit_creditchannel_pa
阅读全文
摘要:问题介绍 打印了一下数据格式,并未发现问题。如果说是字典实例引起的。 我猜测也是extra字段引起的,因为extra字段是一个json字段。根据网上的提示要对这样的格式进行强转str. 其他发现:pd.to_sql操作还对我们的表进行了删除和重建(if_exists="replace"),改变了我们
阅读全文
摘要:pandas中read_xxx的块读取功能 pandas设计时应该是早就考虑到了这些可能存在的问题,所以在read功能中设计了块读取的功能,也就是不会一次性把所有的数据都放到内存中来,而是分块读到内存中,最后再将块合并到一起,形成一个完整的DataFrame。 def read_sql_table(
阅读全文
摘要:1.问题发现 df=pd.read_csv("X-go报表_交易20191118.csv") print(df.info()) File "pandas/_libs/parsers.pyx", line 394, in pandas._libs.parsers.TextReader.__cinit_
阅读全文

浙公网安备 33010602011771号