pandas刷题梳理

drop_duplicates(subset=None, keep='first', inplace=False)
- subset:用来指定特定的列，默认所有列
- keep:删除重复项并默认保留first出现的项
duplicated(keep=False)keep=False表示所有重复项都被标记为True，如果为’first’，表示第一个出现的项不会被标记为重复；如果为’last’，则最后出现的项不会被标记为重复；默认为first
sort_values(by=[],ascending=[])
- by:按照特定列排序
- ascending:默认False降序。True为升序。
head(n),tail(n)
- head:取前n行
- tail:取倒数n行
rename(columns={'':''})给列重命名
rank(method='', ascending=[])默认降序排列，排名连续12345
- method:可取值为‘average’,'first','min','max','dense'
  - first: 两值相同，谁先出现谁序号在前
  - min: 两值相同，取顺序排名中最小的排名作为该值排名12245
  - dense: 相同值序号相同122345
DataFrame.index取索引列的值
len(DataFrame)取表的行数
DataFrame.get(i)取第i行的值
pd.DataFrame({'columnName':colName})创建df
groupby后agg、lambda、transform、apply(https://blog.csdn.net/shijie97/article/details/100203634)
- transform:返回与原表等长的列向量
Dateoffset(1): 日期偏移函数，代表日期加1天
nunique()和unique()
- nunique()返回不同值的个数
- unique()去重返回
pd.concat()默认上下堆叠，加参数axis=1，左右连接
- 上下堆叠必须列名一样
dt.year, dt.month, dt.day取日期类型数据年月日
dt.strftime('%Y-%m-%d')
cumsum()求累加值并显示每一行累加完的值
rolling(window=n).sum()从上到下每n个数的和
value_counts(ascending=False)返回排列值和出现次数，默认降序
loc和iloc
- loc通过行列名称或标签取值，loc[1,1]取第一行第一列，loc[：,'B']取'B'列所有数
- iloc通过行列索引位置取值，iloc[1,1]取第一行第一列
groupby后使用reset_index()的作用
- groupby进行聚合计算，会让母列变成索引列，子列变成无列名的数据，加上reset_index()后，会将母列和子列变成数据列，且母列子列名会继续保留，并添加标准索引列
判断列中的数据是否在另一列中
- df['data'].isin(df1['data1'])否定就加~，格式都是 series
cumsum()计算列中数据的累加值
value_counts()返回value以及计数counts值。
用np.where(condition, res1, res2)来进行SQL的if运算，可嵌套
列转行pivot(index='',columns='',values='').reset_index(),行转列melt(id_vars='',var_name='',value_name='')

posted @ 2023-11-14 22:09 dretrtg 阅读(48) 评论(0) 收藏举报

刷新页面返回顶部