随笔分类 -  sklearn

摘要:一.k-means原理 k-means属于无监督学习。 将原始点分成3类 k的取值, 1.需要将样本分成几类,k就取几 2.通过网格搜索自动调节 1.需要将样本分成几类,k就取几 2.通过网格搜索自动调节 中心点计算:所有点的x,y,z取平均(x1+x2+……xn)/n,(y1+y2+yn)/n,( 阅读全文
posted @ 2019-10-31 11:37 荼离伤花 阅读(640) 评论(0) 推荐(0)
摘要:保存成ridge.pkl 加载ridge.pkl 阅读全文
posted @ 2019-10-31 11:09 荼离伤花 阅读(322) 评论(0) 推荐(0)
摘要:一。精确率和召回率 sklearn查看精确率召回率 二。ROC曲线和AUC指标 准确率和召回率在样本不均衡的情况下不能良好的反应模型的好坏。 sklearnAPI 阅读全文
posted @ 2019-10-31 10:59 荼离伤花 阅读(155) 评论(0) 推荐(0)
摘要:一。sklearnAPI 二。预测乳腺癌 阅读全文
posted @ 2019-10-31 10:25 荼离伤花 阅读(619) 评论(0) 推荐(0)
摘要:一。sklearnAPI 正规方程和梯度下降 二。 岭回归-带L2正则化的线性回归 在建立回归方程时加上正则化,解决过拟合问题。 阅读全文
posted @ 2019-10-30 18:09 荼离伤花 阅读(723) 评论(0) 推荐(0)
摘要:一。集成学习 详细参考 https://blog.csdn.net/zwqjoy/article/details/80431496 二。随机森林 -由多个决策树构成的分类器 三。sklearn随机森林 数据准备和预处理与决策树相同 阅读全文
posted @ 2019-10-30 16:32 荼离伤花 阅读(147) 评论(0) 推荐(0)
摘要:一,决策树概念 通过分支进行判断结果,而这些分支就是特征,如果重要的特征在根节点,就能有效的减少决策次数。所以决策树的问题在于如何高效的构建决策树。 二。 信息论 1.信息熵 -代表信息(结果)的不确定性 2.信息增益 当确定某个特征后,信息熵改变的大小(信息熵-条件熵) 三。sklearn决策树 阅读全文
posted @ 2019-10-30 15:50 荼离伤花 阅读(182) 评论(0) 推荐(0)
摘要:一。基本原理 贝叶斯公式 二。在文本分类中的情况 sklearn实现 阅读全文
posted @ 2019-10-30 13:12 荼离伤花 阅读(261) 评论(0) 推荐(0)
摘要:1 from sklearn.datasets import load_iris 2 from sklearn.model_selection import train_test_split #集合划分 3 from sklearn.feature_extraction import DictVectorizer #字典特征抽取 4 from sklearn.feature_extrac... 阅读全文
posted @ 2019-10-30 10:54 荼离伤花 阅读(312) 评论(0) 推荐(0)
摘要:对鸢尾花数据集进行分类并交叉验证 阅读全文
posted @ 2019-10-29 16:45 荼离伤花 阅读(1058) 评论(0) 推荐(0)