2020年7月21日
摘要: sns.countplot() 用于类别特征的频数条形图,可以画类别特征和y值(y值特征也是类比的话)的条形图 sns.countplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, co 阅读全文
posted @ 2020-07-21 16:20 小小喽啰 阅读(15019) 评论(0) 推荐(1)
摘要: plt.pie() 可以实现画饼图 plt.pie(x, explode=None, labels=None, colors=('b', 'g', 'r', 'c', 'm', 'y', 'k', 'w'), autopct=None, pctdistance=0.6, shadow=False, 阅读全文
posted @ 2020-07-21 15:53 小小喽啰 阅读(4795) 评论(0) 推荐(1)
摘要: 目录 sklearn.preprocessing StandardScaler,标准化,也叫z-score规范化 最小-最大规范化 正则化(normalize) one-hot编码 特征二值化 标签编码(Label encoding) sklearn.preprocessing 属于数据预处理阶段, 阅读全文
posted @ 2020-07-21 15:18 小小喽啰 阅读(3196) 评论(0) 推荐(0)
  2020年7月20日
摘要: 当我们分析特征时,类别特征该可视化怎么做 一、只画类别特征: 1.df[col].value_counts().plot.bar() 2.sns.countplot(df[col]) import numpy as np import pandas as pd import matplotlib.p 阅读全文
posted @ 2020-07-20 17:07 小小喽啰 阅读(2853) 评论(0) 推荐(0)
摘要: 离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3} 一、pd.get_dummies() 一种字符 阅读全文
posted @ 2020-07-20 10:53 小小喽啰 阅读(3659) 评论(0) 推荐(0)
  2020年7月17日
摘要: 电信用户数据:https://www.datafountain.cn/dataSets/35/details# 将装有该字典的Excel表导入到python中 import pandas as pd dict_name=pd.read_excel('F:\\python\\电信用户数据\\电信用户数 阅读全文
posted @ 2020-07-17 16:14 小小喽啰 阅读(2343) 评论(0) 推荐(0)
摘要: df.sample()就是抽样函数,参数如下: df.sample(n=None,frac=None,replace=Flase,weights=None,random_state=None,axis=None) 参数说明: n:就是样本量,如果不写,就是抽一条数据 frac:抽样比,就是样本量占全 阅读全文
posted @ 2020-07-17 14:57 小小喽啰 阅读(2313) 评论(0) 推荐(0)
摘要: 看我下面这个表达,以为dict有append() #导入模块 import pandas as pd import numpy as np import xlrd #读Excel import xlwt #将内容写进Excel #打开excel文件1 workbook = xlrd.open_wor 阅读全文
posted @ 2020-07-17 14:10 小小喽啰 阅读(16669) 评论(1) 推荐(0)
摘要: zip()函数将可迭代的对象作为参数,将对象对应的元素打包成一个个元祖,然后返回由这些元祖组成的对象,我们可以使用list()转换成列表 如果各个迭代器的元素个数不一致,则返回列表长度和最小的对象相同,用*好操作符,可以将元祖解压为列表 1.两个或者多个list a=[1,2,3] b=[4,5,6 阅读全文
posted @ 2020-07-17 11:31 小小喽啰 阅读(965) 评论(0) 推荐(0)
  2020年7月16日
摘要: pd.cut() 是把一组数据按照一定bins分割成离散的区间,得到的数据是每个值的落到的区间,此函数对于从连续变量转换为离散变量也很有用 #参数如下: pd.cut(x, bins, right=True, labels=None, retbins=False, precision=3, incl 阅读全文
posted @ 2020-07-16 16:55 小小喽啰 阅读(5325) 评论(0) 推荐(0)