pandas - 随笔分类 - myrj

python 长数据转宽数据

摘要：import pandas as pd # 长格式数据 df_long = pd.DataFrame({ 'id': ['A', 'A', 'B', 'B', 'C', 'C'], 'year': [2020, 2021, 2020, 2021, 2020, 2021], 'value': [10, 阅读全文

posted @ 2025-01-03 20:59 myrj 阅读(119) 评论(0) 推荐(0)

pandas读 .sql文件

摘要：import pandas as pd # 假设你的SQL文件名为 'query.sql' sql_file_path = 'query.sql' # 使用read_sql_file读取SQL文件 df = pd.read_sql_file(sql_file_path) # 显示DataFrame 阅读全文

posted @ 2024-09-08 19:33 myrj 阅读(105) 评论(0) 推荐(0)

python pandas 日期时间转换取年报错

摘要：raise AttributeError("Can only use .dt accessor with datetimelike values") 日期时间两边有双引号，转换失败df1["year"]=pd.to_datetime(df1["insertTime"]).dt.year 需要替换掉两阅读全文

posted @ 2024-09-08 15:53 myrj 阅读(266) 评论(0) 推荐(0)

python 报错：raise IllegalCharacterError(f"{value} cannot be used in worksheets.") openpyxl.utils.exceptions.IllegalCharacterError

摘要：报错： raise IllegalCharacterError(f"{value} cannot be used in worksheets.")openpyxl.utils.exceptions.IllegalCharacterError: 图尔荪托合提麦合苏提 cannot be used i 阅读全文

posted @ 2024-07-20 19:34 myrj 阅读(1209) 评论(0) 推荐(0)

python juypter 安装及运行.ipynb

摘要：1.windows安装jupyterpip install jupyter2.运行cmd,切换到.ipynb文件所在的文件夹3.CMD,运行命令jupyter notebook4.如果电脑中安装了两个版本的python,分别是python37 python311,则需要根据path中的路径判断利用哪阅读全文

posted @ 2024-07-12 08:30 myrj 阅读(350) 评论(0) 推荐(0)

pandas 索引占用内存大小显示 pd.index.memory_usage()

摘要：>>> s = pd.Series(np.zeros(10**6)) >>> s.index RangeIndex(start=0, stop=1000000, step=1) >>> s.index.memory_usage() # in bytes 128 # the same as for S 阅读全文

posted @ 2024-02-12 05:53 myrj 阅读(47) 评论(0) 推荐(0)

python pandas loc iloc区别与联系

摘要：按“位置”寻址有时被称为“位置索引”，这只是增加了混淆。一对方括号是不够的。特别是: S[2:3]不是解决元素2最方便的方式如果名称恰好是整数，s[1:3]就会产生歧义。它可能意味着名称1到3包含或位置索引1到3不包含。为了解决这些问题，Pandas还有两种“风格”的方括号，你可以在下面看到: 阅读全文

posted @ 2024-02-12 05:49 myrj 阅读(123) 评论(0) 推荐(0)

python pandas label position区别与联系

摘要：pandas.DataFrame是矩形格式，为了定位每行、每列、每个元素，可以通过行名列名确定。中英文描述性的行名、列名称为label；而0,1,2,3,4,5…等数字称为position；通过label或position都可以定位元素，但是有些函数在定位时只能用label，有些只能用posi 阅读全文

posted @ 2024-02-12 05:46 myrj 阅读(64) 评论(0) 推荐(0)

python 统计字符串字符出现的次数

摘要：>>> aa="adfasdfasdf" >>> aa.count("a") 3 >>> aa.index("a") 0 >>> aa.rfind("a") 7 >>> index检索（从左边开始第一个位置） rfind检索（从左边开始最后一个的位置）阅读全文

posted @ 2024-02-03 06:18 myrj 阅读(51) 评论(0) 推荐(0)

python pandas按数据类型筛选

摘要：按数据类型查询 Pandas提供了一个按列数据类型筛选的功能 df.select_dtypes(include=None, exclude=None)，它可以指定包含和不包含的数据类型，如果只有一个类型，传入字符；如果有多个类型，传入列表。 df.select_dtypes(include=[' 阅读全文

posted @ 2024-02-01 06:20 myrj 阅读(120) 评论(0) 推荐(0)

python pandas文本连接

摘要：文本连接方法s.str.cat()具有文本连接的功能，可以将序列连接成一个文本或者将两个文本序列连接在一起。 # 文本序列 s = pd.Series(['x', 'y', 'z'], dtype="string") # 默认无符号连接 s.str.cat() # 'xyz' # 用逗号连接 s. 阅读全文

posted @ 2024-01-28 08:25 myrj 阅读(84) 评论(0) 推荐(0)

python pandas文本替换

摘要：文本替换在进行数据处理时我们可以使用替换功能剔除我们不想要的内容，换成想要的内容。这在数据处理中经常使用，因为经过人工整理的数据往往不理想，需要进行替换操作。我们使用.str.replace()方法来完成这一操作。例如，对于以下一些金额数据，我们想去除货币符号，为后续转换为数字类型做准备，因为非阅读全文

posted @ 2024-01-28 08:23 myrj 阅读(236) 评论(0) 推荐(0)

python pandas 文本切片处理

摘要：文本分隔对文本的分隔和替换是最常用的文本处理方式。对文本分隔后会生成一个列表，我们对列表进行切片操作，可以找到我们想要的内容。分隔后还可以将分隔内容展开，形成单独的行。下例以下划线对内容进行了分隔，分隔后每个内容都成为一个列表。分隔对空值不起作用。 # 构造数据 s = pd.Series(['天阅读全文

posted @ 2024-01-28 08:20 myrj 阅读(221) 评论(0) 推荐(0)

python pandas字符处理一

摘要：s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe']) s.str.lower() # 转为小写 s.str.upper() # 转为大写 s.str.title() # 标题格式，每个单词大写 s.str.cap 阅读全文

posted @ 2024-01-28 08:18 myrj 阅读(52) 评论(0) 推荐(0)

python 将列表追加到新列表的写法，

摘要：>>> f0=2304001 >>> xx=f0-1 >>> mvv=[] >>> muu=[] >>> muu.append([xx+1,xx+2,xx+3]) >>> muu [[2304001, 2304002, 2304003]] >>> xx=xx+3 >>> muu.append([xx 阅读全文

posted @ 2024-01-28 06:43 myrj 阅读(37) 评论(0) 推荐(0)

python 错误提示A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead解决方案

摘要：目标想根据kaohao新增加一个变量，其值用来标记kaohao是否连续解决方案： >>> df4=df3[["kaohao"]].copy()>>> df4['consecutive'] = (df4['kaohao']!= df4['kaohao'].shift(+1)).cumsum() 阅读全文

posted @ 2024-01-28 06:28 myrj 阅读(576) 评论(0) 推荐(0)

pandas

摘要：pandas 实现以A列值作为唯一值，将A列值相同的数据合并为一条数据，以分号分隔 df_merge = data2.groupby('唯一值').agg({'序号': ';'.join} 阅读全文

posted @ 2024-01-27 11:08 myrj 阅读(25) 评论(0) 推荐(0)

python pandas 每三行分一组

摘要：groupd=group.groupby(group.index //3) for name,group1 in groupd: print(1,group1) 阅读全文

posted @ 2024-01-26 06:30 myrj 阅读(30) 评论(0) 推荐(0)

pandas典型应用

摘要：#header默认为0，即以第一列为列名，这里设为None，意味不设置第一行为列名； df11 = pd.read_table(url,header =None) df11.head() #names =***,可以自定义设置列名 user_cols = ['id','quantity','name 阅读全文

posted @ 2024-01-14 10:05 myrj 阅读(54) 评论(0) 推荐(0)

HDFS 转dataframe

摘要：import pyarrow.parquet as pq from pyarrow import fs # 创建Hadoop文件系统对象 fs = fs.LocalFileSystem() hadoop_path = "hdfs://<your-hdfs-address>/<csv-file>" # 阅读全文

posted @ 2024-01-07 16:03 myrj 阅读(36) 评论(0) 推荐(0)

myrj

随笔分类 - pandas

公告