python数据分析 - 随笔分类 - wqbin

numpy中的tile函数

摘要：Numpy的 tile() 函数，就是将原矩阵横向、纵向地复制。tile 是瓷砖的意思，顾名思义，这个函数就是把数组像瓷砖一样铺展开来。举个例子，原矩阵：横向： >>> import numpy as np >>> d2= np.array([[1,2], [3, 4]]) >>> d2 arr 阅读全文

posted @ 2020-05-07 21:24 wqbin 阅读(984) 评论(0) 推荐(0)

numpy中np.r_行连接与np.c_列连接

摘要：官网说 .r_是沿第一轴连接（在数学中第一轴是行）， Translates slice objects to concatenation along the first axis .c_是沿第二轴连接（列） Translates slice objects to concatenation alon 阅读全文

posted @ 2020-05-07 12:10 wqbin 阅读(712) 评论(0) 推荐(0)

dataframe转化（二）之 apply(),transform(),agg() 的用法和区别

摘要：用法介绍 transform用法 pandas.Series.transform Call func on self producing a Series with transformed values. Produced Series will have same axis length as s 阅读全文

posted @ 2020-04-30 00:47 wqbin 阅读(5261) 评论(0) 推荐(2)

pandas 数据类型研究（三）数据类型object与category

摘要：数据类型object与category比较 category数据类型官方文档是这样描述的： Categoricals 是 pandas 的一种数据类型，对应着被统计的变量。 1.Categoricals 是由固定的且有限数量的变量组成的。比如：性别、社会阶层、血型、国籍、观察时段、赞美程度等等。阅读全文

posted @ 2020-04-27 13:47 wqbin 阅读(3282) 评论(0) 推荐(0)

pd.melt详解--列转行

摘要：方法详解： pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None “Unpivots” a DataFrame from wide format to l 阅读全文

posted @ 2020-04-26 20:31 wqbin 阅读(5417) 评论(0) 推荐(0)

kaggle比赛实践M5-比赛介绍

摘要：比赛介绍这是M5预测挑战赛的两个互补比赛之一。你能尽可能准确地估计沃尔玛在美国销售的各种产品的单位销售额吗？如果你对估计同一系列已实现值的不确定性分布感兴趣，一定要查看它的竞争对手一家商店一年内每月能卖多少露营用具？对于外行来说，在这个水平上计算销售额似乎和预测天气一样困难。这两种预测都依赖科学阅读全文

posted @ 2020-04-26 16:13 wqbin 阅读(1538) 评论(0) 推荐(0)

如何加速pandas的DataFrame

摘要：使用pandarallel模块对 Pandas加速 python的dataFrame确实好用，但是明显只能单核运算使用pandas，当您运行以下行时： # Standard apply df.apply(func) 得到这个CPU使用率：即使计算机有多个CPU，也只有一个完全专用于计算。最近受阅读全文

posted @ 2020-03-28 21:45 wqbin 阅读(5220) 评论(0) 推荐(0)

pandas数据类型判断（三）数据判断

摘要：1.函数：空值判断 1)判断数值是否为空用 pd.isna,pd.isnull,np.isnan2)判断字符串是否为空用 pd.isna,pd.isnull；3)判断时间是否为空用 pd.isna,pd.isnull,np.isnat 参数：obj：标量或数组返回：布尔或布尔数组说明： 1.NA 阅读全文

posted @ 2019-12-12 22:28 wqbin 阅读(13884) 评论(0) 推荐(0)

pandas数据类型（二）与numpy的str和object类型之间的区别

摘要：现象： Numpy区分了str和object类型，其中dtype(‘S’)和dtype(‘O’)分别对应于str和object. 然而,pandas缺乏这种区别 str和object类型都对应dtype(‘O’)类型，即使强制类型为dtype(‘S’)也无济于事 >>> import pandas 阅读全文

posted @ 2019-12-12 19:10 wqbin 阅读(7187) 评论(0) 推荐(0)

pandas 数据类型研究（一）数据转换

摘要：当利用pandas进行数据处理的时候，经常会遇到数据类型的问题，当拿到数据的时候，首先需要确定拿到的是正确类型的数据，一般通过数据类型的转化，这篇文章就介绍pandas里面的数据类型（data types也就是常用的dtyps），以及pandas与numpy之间的数据对应关系。 dataframe中阅读全文

posted @ 2019-12-12 16:33 wqbin 阅读(1464) 评论(0) 推荐(0)

Pandas中空值的判断方法，包括数值型、字符串型、时间类型等

摘要：补坑。有的时候挖完了坑就忘了填。哈哈。这种写了开头，没写完或者没写的。博客界称这样博主为太监。下面没有了。哈哈其实我有一篇文章分析过pandas中的null空值，np.nan,还有None等数据判断方式。见数据判断我们这里注意看下字符串数据类型，当然字符串数据类型在pandas 是以object 阅读全文

posted @ 2019-12-10 21:44 wqbin 阅读(5718) 评论(0) 推荐(0)

pandas实现hive的lag和lead函数以及 first_value和last_value函数

摘要：lag和lead VS shift 该函数的格式如下: 第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL） lag lag(字段名,N，默认值) over(partition by 分组字段 order 阅读全文

posted @ 2019-12-05 10:00 wqbin 阅读(2096) 评论(0) 推荐(0)

pandas之dataframe踩坑指南（一）---apply(func)

摘要：import pandas as pd data = pd.read_csv(r"test数据.csv", engine="python", encoding="utf-8") def pprint(row): row["extra"]=1 print(row) return row data = 阅读全文

posted @ 2019-12-04 12:06 wqbin 阅读(2570) 评论(0) 推荐(0)

pandas处理json脱坑（二）--jsonError: Expecting ',' delimiter: line 1 column 2674

摘要：Expecting ',' delimiter: line 1 column 2674 json_dict = json.loads(row[json_columns].replace("'","\"")) 为什么要replace("'","\"")见博客但是依旧报错我用try catch的方法阅读全文

posted @ 2019-12-03 16:29 wqbin 阅读(10712) 评论(0) 推荐(0)

pandas处理json脱坑（一）--JsonError: Expecting property name enclosed in double quotes

摘要：python执行json.loads（…）时遇到的错误json格式的文本中应该用双引号，而不是单引号，如： brief=json.loads(row["brief"].replace("'","\"")) 把单引号替换成双引号即可。阅读全文

posted @ 2019-11-28 22:36 wqbin 阅读(1067) 评论(0) 推荐(0)

python numpy.array插入一行或一列

摘要：numpy.array插入一行或一列 import numpy as np a = np.array([[1,2,3],[4,5,6],[7,8,9]]) b = np.array([[0,0,0]]) c = np.insert(a, 0, values=b, axis=0) d = np.ins 阅读全文

posted @ 2019-11-21 10:29 wqbin 阅读(12031) 评论(0) 推荐(0)

添加索引：BLOB/TEXT column 'xxx' used in key specification without a key length

摘要：问题 1. 将DataFrame数据保存到mysql后，添加索引出现错误提示： BLOB/TEXT column used in key specification without a key length 2. mysql> CREATE INDEX credit_creditchannel_pa 阅读全文

posted @ 2019-11-21 10:13 wqbin 阅读(3146) 评论(0) 推荐(0)

Pandas to_sql TypeError: sequence item 0: expected str instance, dict found

摘要：问题介绍打印了一下数据格式，并未发现问题。如果说是字典实例引起的。我猜测也是extra字段引起的，因为extra字段是一个json字段。根据网上的提示要对这样的格式进行强转str. 其他发现：pd.to_sql操作还对我们的表进行了删除和重建（if_exists="replace"）,改变了我们阅读全文

posted @ 2019-11-20 14:55 wqbin 阅读(2257) 评论(0) 推荐(0)

python panda读写内存溢出：MemoryError

摘要：pandas中read_xxx的块读取功能 pandas设计时应该是早就考虑到了这些可能存在的问题，所以在read功能中设计了块读取的功能，也就是不会一次性把所有的数据都放到内存中来，而是分块读到内存中，最后再将块合并到一起，形成一个完整的DataFrame。 def read_sql_table( 阅读全文

posted @ 2019-11-19 17:04 wqbin 阅读(4366) 评论(0) 推荐(0)

处理 read_csv 报错 OSError:Initializing from file failed

摘要：1.问题发现 df=pd.read_csv("X-go报表_交易20191118.csv") print(df.info()) File "pandas/_libs/parsers.pyx", line 394, in pandas._libs.parsers.TextReader.__cinit_ 阅读全文

posted @ 2019-11-18 12:47 wqbin 阅读(489) 评论(0) 推荐(0)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

随笔分类 - python数据分析

公告