sklearn

安装：

pip install scikit-learn

sklearn 是一个非常强大的库，他也有很多做聚类的api，10种聚类算法的完整python操作示例 ; DBSCAN 在图分析中也看到过多次。

随机森林属性：https://blog.csdn.net/MemoryHeroLi/article/details/80920260
如何绘制树模型所生成的树，这个需要安装一些包，python需要安装宏包，电脑也需要安装graphix，并且设置环境变量，graphix 安装参考
code可以参考决策树 / 神经网络 / 支持向量机; 得到这些图，如何去分析这些图？

## 画出决策树
from graphviz import Source
from sklearn.tree import export_graphviz
    
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
# 当前路径下新建文件夹‘images’，文件夹里再新建文件夹（章节ID），整体作为图像路径
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True) # makedir
    
export_graphviz(
        DT_model_fit, # 方法
        out_file=os.path.join(IMAGES_PATH, "Credit_tree.dot"), # 输出决策树文档，为制图做准备
        feature_names=var_all,
        class_names=['Bad_credit','Good_credit'],
        rounded=True,
        filled=True
    )
Source.from_file(os.path.join(IMAGES_PATH, "Credit_tree.dot"))

XGBboost 学习笔记：https://blog.csdn.net/luanfenlian0992/article/details/106448500

一些应用

为什么编码先fit、再transform，或者fit_transform：https://blog.csdn.net/u011734144/article/details/84066784
sklearn 模型对于预测，我们可以使用model.predict，有时我们也使用model.predict_proba，这样我们可以获得具体的预测概率，
如果是二分类问题，第一列是对于0的预测，第二列是对于1的预测，根据预测概率，我们可以计算roc
可以参考：sklearn中predict_proba、predict用法；这篇：sklearn的predict_proba使用说明
对数据进行归一化处理，为什么需要进行归一化处理？可以消除量纲，我们关心的是变量之间的分布与变量之间的条件概率，这个怎么理解？
常见的模型有哪些进行归一化处理：Adaboost、SVM、LR、Knn、KMeans等
可以参考： Sklearn之数据预处理——StandardScaler

Sklearn如何批量自动处理数据，Automated Data Cleaning with Python, 帖子中有多重方式填充缺失值，linear reg， knn， mean等，Github link: AutoClean

调参

一般来说，包括网格调参和随机调参，网格调参可以参考：XGBoost---Sklearn_GridSearchCv

如果需要使用KFold 交叉验证：可以参考 sklearn KFold()
这里的图很清楚sklearn中混淆矩阵（confusion_matrix函数）的理解与使用
 python sklearn 使用 LGB； lgb 多分类设置

特征筛选 chi2
特征工程（三）特征组合与交叉（一）多项式特征

posted on 2021-10-18 08:50 RankFan 阅读(145) 评论(0) 收藏举报

刷新页面返回顶部

sklearn

一些应用

调参

导航

公告