随笔分类 - a机器学习
里面包括pandas,numpy,sklearn,seaboern的一些用法
摘要:1.np.random.choice(采集的对象,若是整数则默认np.arange(int),抽取的个数,抽取的样本是否重复) 2.concatenate([a,b],axis=0/1)axis默认为0,为0纵向拼接,1横向拼接
阅读全文
摘要:1.pd.value_count():带入数值可以计算出value有多少的类别 2.sort_values()(按照数值进行排列)/sort_index()(对index/columns的大小进行排列),其中axis=0是默认的值,代表值列 3.reshape():这个是numpy的一个函数,我们可
阅读全文
摘要:一.下采样 对于样本不均衡来说,使得两个样本(向少的样本靠齐)同样的少.将多的数据进行裁剪使得样本最后可以均衡,具体的代码设计如下: 二.过采样 对于样本不均衡来说,使得两个样本(向多的样本靠齐)同样的多(制造多的样本)
阅读全文
摘要:kdeplot(核密度估计图) 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。具体用法如下: 二元kde图像 distplot displot()集合了matplo
阅读全文
摘要:一.线性回归 LinearRegression类就是我们平时所说的普通线性回归,它的损失函数如下所示: 对于这个损失函数,一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法,而scikit-learn中的LinearRegression类使用的是最小二乘法。通过最小二乘法,可以解出线性回归系数
阅读全文

浙公网安备 33010602011771号