- drop_duplicates(subset=None, keep='first', inplace=False)
- subset:用来指定特定的列,默认所有列
- keep:删除重复项并默认保留first出现的项
- duplicated(keep=False)keep=False表示所有重复项都被标记为True,如果为’first’,表示第一个出现的项不会被标记为重复;如果为’last’,则最后出现的项不会被标记为重复;默认为first
- sort_values(by=[],ascending=[])
- by:按照特定列排序
- ascending:默认False降序。True为升序。
- head(n),tail(n)
- rename(columns={'':''})给列重命名
- rank(method='', ascending=[])默认降序排列,排名连续12345
- method:可取值为‘average’,'first','min','max','dense'
- first: 两值相同,谁先出现谁序号在前
- min: 两值相同,取顺序排名中最小的排名作为该值排名12245
- dense: 相同值序号相同122345
- DataFrame.index取索引列的值
- len(DataFrame)取表的行数
- DataFrame.get(i)取第i行的值
- pd.DataFrame({'columnName':colName})创建df
- groupby后agg、lambda、transform、apply(https://blog.csdn.net/shijie97/article/details/100203634)
- Dateoffset(1): 日期偏移函数,代表日期加1天
- nunique()和unique()
- nunique()返回不同值的个数
- unique()去重返回
- pd.concat()默认上下堆叠,加参数axis=1,左右连接
- dt.year, dt.month, dt.day取日期类型数据年月日
- dt.strftime('%Y-%m-%d')
- cumsum()求累加值并显示每一行累加完的值
- rolling(window=n).sum()从上到下每n个数的和
- value_counts(ascending=False)返回排列值和出现次数,默认降序
- loc和iloc
- loc通过行列名称或标签取值,loc[1,1]取第一行第一列,loc[:,'B']取'B'列所有数
- iloc通过行列索引位置取值,iloc[1,1]取第一行第一列
- groupby后使用reset_index()的作用
- groupby进行聚合计算,会让母列变成索引列,子列变成无列名的数据,加上reset_index()后,会将母列和子列变成数据列,且母列子列名会继续保留,并添加标准索引列
- 判断列中的数据是否在另一列中
- df['data'].isin(df1['data1'])否定就加~,格式都是 series
- cumsum()计算列中数据的累加值
- value_counts()返回value以及计数counts值。
- 用np.where(condition, res1, res2)来进行SQL的if运算,可嵌套
- 列转行pivot(index='',columns='',values='').reset_index(),行转列melt(id_vars='',var_name='',value_name='')
posted @
2023-11-14 22:09
dretrtg
阅读(
22)
评论()
收藏
举报