sklearn
安装:
pip install scikit-learn
- sklearn官网,DataWhale 推文: skleran 做特征工程 ,【blogs:详细的特征工程可以参考】; B站视屏
- 推文:非常全面的Sklearn介绍,可以参考;sklearn 中的损失函数
sklearn 是一个非常强大的库,他也有很多做聚类的api,10种聚类算法的完整python操作示例 ; DBSCAN 在图分析中也看到过多次。
- 随机森林属性:https://blog.csdn.net/MemoryHeroLi/article/details/80920260
- 如何绘制树模型所生成的树,这个需要安装一些包,python需要安装宏包,电脑也需要安装graphix,并且设置环境变量,graphix 安装参考
code可以参考决策树 / 神经网络 / 支持向量机; 得到这些图,如何去分析这些图?
## 画出决策树
from graphviz import Source
from sklearn.tree import export_graphviz
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
# 当前路径下新建文件夹‘images’,文件夹里再新建文件夹(章节ID),整体作为图像路径
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True) # makedir
export_graphviz(
DT_model_fit, # 方法
out_file=os.path.join(IMAGES_PATH, "Credit_tree.dot"), # 输出决策树文档,为制图做准备
feature_names=var_all,
class_names=['Bad_credit','Good_credit'],
rounded=True,
filled=True
)
Source.from_file(os.path.join(IMAGES_PATH, "Credit_tree.dot"))
一些应用
-
为什么编码先fit、再transform,或者fit_transform:https://blog.csdn.net/u011734144/article/details/84066784
-
sklearn 模型对于预测,我们可以使用
model.predict,有时我们也使用model.predict_proba,这样我们可以获得具体的预测概率,
如果是二分类问题,第一列是对于0的预测,第二列是对于1的预测,根据预测概率,我们可以计算roc
可以参考:sklearn中predict_proba、predict用法;这篇:sklearn的predict_proba使用说明 -
对数据进行归一化处理,为什么需要进行归一化处理?可以消除量纲,我们关心的是变量之间的分布与变量之间的条件概率,这个怎么理解?
常见的模型有哪些进行归一化处理:Adaboost、SVM、LR、Knn、KMeans等
可以参考: Sklearn之数据预处理——StandardScaler
Sklearn如何批量自动处理数据,Automated Data Cleaning with Python, 帖子中有多重方式填充缺失值,linear reg, knn, mean等,Github link: AutoClean
调参
一般来说,包括网格调参和随机调参,网格调参可以参考:XGBoost---Sklearn_GridSearchCv
如果需要使用KFold 交叉验证:可以参考 sklearn KFold()
这里的图很清楚sklearn中混淆矩阵(confusion_matrix函数)的理解与使用
python sklearn 使用 LGB; lgb 多分类设置
浙公网安备 33010602011771号