随笔分类 -  a机器学习

里面包括pandas,numpy,sklearn,seaboern的一些用法
摘要:1.np.random.choice(采集的对象,若是整数则默认np.arange(int),抽取的个数,抽取的样本是否重复) 2.concatenate([a,b],axis=0/1)axis默认为0,为0纵向拼接,1横向拼接 阅读全文
posted @ 2018-10-22 15:27 yskn 阅读(138) 评论(0) 推荐(0)
摘要:1.pd.value_count():带入数值可以计算出value有多少的类别 2.sort_values()(按照数值进行排列)/sort_index()(对index/columns的大小进行排列),其中axis=0是默认的值,代表值列 3.reshape():这个是numpy的一个函数,我们可 阅读全文
posted @ 2018-10-21 18:01 yskn 阅读(220) 评论(0) 推荐(0)
摘要:一.下采样 对于样本不均衡来说,使得两个样本(向少的样本靠齐)同样的少.将多的数据进行裁剪使得样本最后可以均衡,具体的代码设计如下: 二.过采样 对于样本不均衡来说,使得两个样本(向多的样本靠齐)同样的多(制造多的样本) 阅读全文
posted @ 2018-10-21 17:56 yskn 阅读(419) 评论(0) 推荐(0)
摘要:kdeplot(核密度估计图) 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。具体用法如下: 二元kde图像 distplot displot()集合了matplo 阅读全文
posted @ 2018-10-17 20:10 yskn 阅读(879) 评论(0) 推荐(0)
摘要:一.线性回归 LinearRegression类就是我们平时所说的普通线性回归,它的损失函数如下所示: 对于这个损失函数,一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法,而scikit-learn中的LinearRegression类使用的是最小二乘法。通过最小二乘法,可以解出线性回归系数 阅读全文
posted @ 2018-10-14 16:20 yskn 阅读(658) 评论(0) 推荐(0)