随笔分类 - pandas
摘要:import pandas as pd # 长格式数据 df_long = pd.DataFrame({ 'id': ['A', 'A', 'B', 'B', 'C', 'C'], 'year': [2020, 2021, 2020, 2021, 2020, 2021], 'value': [10,
阅读全文
摘要:import pandas as pd # 假设你的SQL文件名为 'query.sql' sql_file_path = 'query.sql' # 使用read_sql_file读取SQL文件 df = pd.read_sql_file(sql_file_path) # 显示DataFrame
阅读全文
摘要:raise AttributeError("Can only use .dt accessor with datetimelike values") 日期时间两边有双引号,转换失败df1["year"]=pd.to_datetime(df1["insertTime"]).dt.year 需要替换掉两
阅读全文
摘要:报错: raise IllegalCharacterError(f"{value} cannot be used in worksheets.")openpyxl.utils.exceptions.IllegalCharacterError: 图尔荪托合提麦合苏提 cannot be used i
阅读全文
摘要:1.windows安装jupyterpip install jupyter2.运行cmd,切换到.ipynb文件所在的文件夹3.CMD,运行命令jupyter notebook4.如果电脑中安装了两个版本的python,分别是python37 python311,则需要根据path中的路径判断利用哪
阅读全文
摘要:>>> s = pd.Series(np.zeros(10**6)) >>> s.index RangeIndex(start=0, stop=1000000, step=1) >>> s.index.memory_usage() # in bytes 128 # the same as for S
阅读全文
摘要:按“位置”寻址有时被称为“位置索引”,这只是增加了混淆。 一对方括号是不够的。特别是: S[2:3]不是解决元素2最方便的方式 如果名称恰好是整数,s[1:3]就会产生歧义。它可能意味着名称1到3包含或位置索引1到3不包含。 为了解决这些问题,Pandas还有两种“风格”的方括号,你可以在下面看到:
阅读全文
摘要:pandas.DataFrame是矩形格式,为了定位每行、每列、每个元素,可以通过行名列名确定。 中英文描述性的行名、列名称为label; 而0,1,2,3,4,5…等数字称为position; 通过label或position都可以定位元素,但是有些函数在定位时只能用label,有些只能用posi
阅读全文
摘要:>>> aa="adfasdfasdf" >>> aa.count("a") 3 >>> aa.index("a") 0 >>> aa.rfind("a") 7 >>> index检索(从左边开始第一个位置) rfind检索(从左边开始最后一个的位置)
阅读全文
摘要:按数据类型查询 Pandas提供了一个按列数据类型筛选的功能 df.select_dtypes(include=None, exclude=None),它可以指定包含和不包含 的数据类型,如果只有一个类型,传入字符;如果有多个类型,传入列 表。 df.select_dtypes(include=['
阅读全文
摘要:文本连接 方法s.str.cat()具有文本连接的功能,可以将序列连接成一个文本或者将两个文本序列连接在一起。 # 文本序列 s = pd.Series(['x', 'y', 'z'], dtype="string") # 默认无符号连接 s.str.cat() # 'xyz' # 用逗号连接 s.
阅读全文
摘要:文本替换 在进行数据处理时我们可以使用替换功能剔除我们不想要的内容,换成想要的内容。这在数据处理中经常使用,因为经过人工整理的数据往往不理想,需要进行替换操作。我们使用.str.replace()方法来完成这一 操作。例如,对于以下一些金额数据,我们想去除货币符号,为后续转换为数字类型做准备,因为非
阅读全文
摘要:文本分隔 对文本的分隔和替换是最常用的文本处理方式。对文本分隔后会生成一个列表,我们对列表进行切片操作,可以找到我们想要的内容。分隔后还可以将分隔内容展开,形成单独的行。下例以下划线对内容进行了分隔,分隔后每个内容都成为一个列表。分隔对空值不起作用。 # 构造数据 s = pd.Series(['天
阅读全文
摘要:s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe']) s.str.lower() # 转为小写 s.str.upper() # 转为大写 s.str.title() # 标题格式,每个单词大写 s.str.cap
阅读全文
摘要:>>> f0=2304001 >>> xx=f0-1 >>> mvv=[] >>> muu=[] >>> muu.append([xx+1,xx+2,xx+3]) >>> muu [[2304001, 2304002, 2304003]] >>> xx=xx+3 >>> muu.append([xx
阅读全文
摘要:目标想根据kaohao新增加一个变量,其值用来标记kaohao是否连续 解决方案: >>> df4=df3[["kaohao"]].copy()>>> df4['consecutive'] = (df4['kaohao']!= df4['kaohao'].shift(+1)).cumsum()
阅读全文
摘要:pandas 实现 以A列值作为唯一值,将A列值相同的数据合并为一条数据,以分号分隔 df_merge = data2.groupby('唯一值').agg({'序号': ';'.join}
阅读全文
摘要:groupd=group.groupby(group.index //3) for name,group1 in groupd: print(1,group1)
阅读全文
摘要:#header默认为0,即以第一列为列名,这里设为None,意味不设置第一行为列名; df11 = pd.read_table(url,header =None) df11.head() #names =***,可以自定义设置列名 user_cols = ['id','quantity','name
阅读全文
摘要:import pyarrow.parquet as pq from pyarrow import fs # 创建Hadoop文件系统对象 fs = fs.LocalFileSystem() hadoop_path = "hdfs://<your-hdfs-address>/<csv-file>" #
阅读全文