a机器学习 - 随笔分类 - yskn

numpy操作

摘要：1.np.random.choice(采集的对象,若是整数则默认np.arange(int),抽取的个数,抽取的样本是否重复) 2.concatenate([a,b],axis=0/1)axis默认为0,为0纵向拼接,1横向拼接阅读全文

posted @ 2018-10-22 15:27 yskn 阅读(139) 评论(0) 推荐(0)

pandas库的一些操作

摘要：1.pd.value_count():带入数值可以计算出value有多少的类别 2.sort_values()(按照数值进行排列)/sort_index()(对index/columns的大小进行排列),其中axis=0是默认的值,代表值列 3.reshape():这个是numpy的一个函数,我们可阅读全文

posted @ 2018-10-21 18:01 yskn 阅读(221) 评论(0) 推荐(0)

样本不平衡处理

摘要：一.下采样对于样本不均衡来说,使得两个样本(向少的样本靠齐)同样的少.将多的数据进行裁剪使得样本最后可以均衡,具体的代码设计如下: 二.过采样对于样本不均衡来说,使得两个样本(向多的样本靠齐)同样的多(制造多的样本) 阅读全文

posted @ 2018-10-21 17:56 yskn 阅读(426) 评论(0) 推荐(0)

seaborn图形

摘要：kdeplot(核密度估计图) 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。具体用法如下：二元kde图像 distplot displot()集合了matplo 阅读全文

posted @ 2018-10-17 20:10 yskn 阅读(882) 评论(0) 推荐(0)

sklearn--回归

摘要：一.线性回归 LinearRegression类就是我们平时所说的普通线性回归，它的损失函数如下所示：对于这个损失函数，一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法，而scikit-learn中的LinearRegression类使用的是最小二乘法。通过最小二乘法，可以解出线性回归系数阅读全文

posted @ 2018-10-14 16:20 yskn 阅读(664) 评论(0) 推荐(0)

杨凯楠

随笔分类 - a机器学习

公告