随笔分类 - sklearn
摘要:一.k-means原理 k-means属于无监督学习。 将原始点分成3类 k的取值, 1.需要将样本分成几类,k就取几 2.通过网格搜索自动调节 1.需要将样本分成几类,k就取几 2.通过网格搜索自动调节 中心点计算:所有点的x,y,z取平均(x1+x2+……xn)/n,(y1+y2+yn)/n,(
阅读全文
摘要:一。精确率和召回率 sklearn查看精确率召回率 二。ROC曲线和AUC指标 准确率和召回率在样本不均衡的情况下不能良好的反应模型的好坏。 sklearnAPI
阅读全文
摘要:一。sklearnAPI 正规方程和梯度下降 二。 岭回归-带L2正则化的线性回归 在建立回归方程时加上正则化,解决过拟合问题。
阅读全文
摘要:一。集成学习 详细参考 https://blog.csdn.net/zwqjoy/article/details/80431496 二。随机森林 -由多个决策树构成的分类器 三。sklearn随机森林 数据准备和预处理与决策树相同
阅读全文
摘要:一,决策树概念 通过分支进行判断结果,而这些分支就是特征,如果重要的特征在根节点,就能有效的减少决策次数。所以决策树的问题在于如何高效的构建决策树。 二。 信息论 1.信息熵 -代表信息(结果)的不确定性 2.信息增益 当确定某个特征后,信息熵改变的大小(信息熵-条件熵) 三。sklearn决策树
阅读全文
摘要:一。基本原理 贝叶斯公式 二。在文本分类中的情况 sklearn实现
阅读全文
摘要:1 from sklearn.datasets import load_iris 2 from sklearn.model_selection import train_test_split #集合划分 3 from sklearn.feature_extraction import DictVectorizer #字典特征抽取 4 from sklearn.feature_extrac...
阅读全文