会飞的蝌蚪君

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

数据处理

写在前面:在我认为,数据处理包括对数据采用可视化以及相关的形式转换,定性分析后进行一系列的变换处理。 本日记将记录笔者使用pandas进行数据处理一些心得。

 1.常用的函数:

 分组 groupby;整体应用apply;归并merge;联合concat;

 

2.在一定程度上也扩充了特征。比如性别本身是一个特征,经过one hot编码以后,就变成了男或女两个特征。

3.
pd.set_option("display.width",200)

np.set_printoptions(linewidth = 200)

4.
data.describe()
#浮点型、整型这些行列进行一些统计描述。计数、平均值、最小值、分位数、中位数、最大值

5.
pd.DataFrame().reindex(columns = xx , fill_value = 0)

6.fuzzywuzzy 库

比较字符串的相似程度

fuzz.ratio('Python Package', 'PythonPackage')

7. " ".join() #用空格连接两个字符串

8.
pd.DataFrame().groupby()

9.
喂给模型的时候,特征字段应该是以数值型送入,因为要进行数值计算

在sklearn中,

labelencoder().fit_transform() 将字符串转变为数值型

 

10.在特征字段中,有的属性值,隔得相近的差异不明显,隔得远的相差的较大,

例如年龄分组:

bins = [-1,6,12,18,24,35,50,70]
data['age'] = pd.cut(data['age'],bins = bins ,lables = np.arrange(len(bins)-1))

posted on 2018-04-02 21:20  会飞的蝌蚪  阅读(116)  评论(0)    收藏  举报