pandas刷题梳理

  • drop_duplicates(subset=None, keep='first', inplace=False)
    • subset:用来指定特定的列,默认所有列
    • keep:删除重复项并默认保留first出现的项
  • duplicated(keep=False)keep=False表示所有重复项都被标记为True,如果为’first’,表示第一个出现的项不会被标记为重复;如果为’last’,则最后出现的项不会被标记为重复;默认为first
  • sort_values(by=[],ascending=[])
    • by:按照特定列排序
    • ascending:默认False降序。True为升序。
  • head(n),tail(n)
    • head:取前n行
    • tail:取倒数n行
  • rename(columns={'':''})给列重命名
  • rank(method='', ascending=[])默认降序排列,排名连续12345
    • method:可取值为‘average’,'first','min','max','dense'
      • first: 两值相同,谁先出现谁序号在前
      • min: 两值相同,取顺序排名中最小的排名作为该值排名12245
      • dense: 相同值序号相同122345
  • DataFrame.index取索引列的值
  • len(DataFrame)取表的行数
  • DataFrame.get(i)取第i行的值
  • pd.DataFrame({'columnName':colName})创建df
  • groupby后agg、lambda、transform、apply(https://blog.csdn.net/shijie97/article/details/100203634)
    • transform:返回与原表等长的列向量
  • Dateoffset(1): 日期偏移函数,代表日期加1天
  • nunique()和unique()
    • nunique()返回不同值的个数
    • unique()去重返回
  • pd.concat()默认上下堆叠,加参数axis=1,左右连接
    • 上下堆叠必须列名一样
  • dt.year, dt.month, dt.day取日期类型数据年月日
  • dt.strftime('%Y-%m-%d')
  • cumsum()求累加值并显示每一行累加完的值
  • rolling(window=n).sum()从上到下每n个数的和
  • value_counts(ascending=False)返回排列值和出现次数,默认降序
  • loc和iloc
    • loc通过行列名称或标签取值,loc[1,1]取第一行第一列,loc[:,'B']取'B'列所有数
    • iloc通过行列索引位置取值,iloc[1,1]取第一行第一列
  • groupby后使用reset_index()的作用
    • groupby进行聚合计算,会让母列变成索引列,子列变成无列名的数据,加上reset_index()后,会将母列和子列变成数据列,且母列子列名会继续保留,并添加标准索引列
  • 判断列中的数据是否在另一列中
    • df['data'].isin(df1['data1'])否定就加~,格式都是 series
  • cumsum()计算列中数据的累加值
  • value_counts()返回value以及计数counts值。
  • 用np.where(condition, res1, res2)来进行SQL的if运算,可嵌套
  • 列转行pivot(index='',columns='',values='').reset_index(),行转列melt(id_vars='',var_name='',value_name='')

  

posted @ 2023-11-14 22:09  dretrtg  阅读(22)  评论(0)    收藏  举报