数据处理
写在前面:在我认为,数据处理包括对数据采用可视化以及相关的形式转换,定性分析后进行一系列的变换处理。 本日记将记录笔者使用pandas进行数据处理一些心得。
1.常用的函数:
分组 groupby;整体应用apply;归并merge;联合concat;
2.在一定程度上也扩充了特征。比如性别本身是一个特征,经过one hot编码以后,就变成了男或女两个特征。
3.
pd.set_option("display.width",200)
np.set_printoptions(linewidth = 200)
4.
data.describe()
#浮点型、整型这些行列进行一些统计描述。计数、平均值、最小值、分位数、中位数、最大值
5.
pd.DataFrame().reindex(columns = xx , fill_value = 0)
6.fuzzywuzzy 库
比较字符串的相似程度
fuzz.ratio('Python Package', 'PythonPackage')
7. " ".join() #用空格连接两个字符串
8.
pd.DataFrame().groupby()
9.
喂给模型的时候,特征字段应该是以数值型送入,因为要进行数值计算
在sklearn中,
labelencoder().fit_transform() 将字符串转变为数值型
10.在特征字段中,有的属性值,隔得相近的差异不明显,隔得远的相差的较大,
例如年龄分组:
bins = [-1,6,12,18,24,35,50,70]
data['age'] = pd.cut(data['age'],bins = bins ,lables = np.arrange(len(bins)-1))
浙公网安备 33010602011771号