摘要: from sktime.classification.interval_based import TimeSeriesForestClassifier from sktime.datasets import load_arrow_head from sklearn.model_selection i 阅读全文
posted @ 2021-11-18 18:35 oaksharks 阅读(493) 评论(0) 推荐(0)
摘要: 变量解释 explainer.excepted_value 预测结果的预期,有时候是一批数据预测结果的均值?? 分标签,如果是多分类,每一个类别都会有一个预期值,分析shap value时候选择对应标签的excepted_value 解释预测结果时候,从这个值出发,每个特征对预测结果有一个影响,最终 阅读全文
posted @ 2021-10-29 18:58 oaksharks 阅读(3642) 评论(0) 推荐(0)
摘要: 支持思路: 找到matplotlib 字体目录和配置文件 在目录中添加中文字体并修改配置文件 画图的代码指定中文字体 找到配置文件地址: import matplotlib print(matplotlib.matplotlib_fname()) # C:\Users\wuhf\Anaconda3\ 阅读全文
posted @ 2021-10-29 18:09 oaksharks 阅读(206) 评论(0) 推荐(0)
摘要: 分层拆分保证拆分后的数据集标签列比例还一样。比如在原来数据集中正负样本比例是2:1,那么在拆分后的测试集和训练集中,正负标签也是2:1。 可以用来修正随机拆分后的测试集和训练中比例不一样的问题。 如果正样本特别少,并且测试集也很少,那么测试集有可能抽不到正样本,可以使用分层采样。 使用sklearn 阅读全文
posted @ 2021-09-03 18:13 oaksharks 阅读(196) 评论(0) 推荐(0)
摘要: mEn=mE+n=me+n=men=m * 10 ^ n 举例说明: 3E2=3E+2=3e+2=3e2=3 * 10 ^ 2 = 300 中间那个E表示10的次幂,比如E+2表示10^2也就是200,这个E可以大写或者小写。 mEn=mE+n=me+n=men=m * 10 ^ -n 举例说明: 阅读全文
posted @ 2021-04-22 11:06 oaksharks 阅读(700) 评论(0) 推荐(0)
摘要: ## 基本用法 通过这个用例可以观察到启动了5个进程。 ```python from joblib import Parallel, delayed def get_pid(p_num): import os import time time.sleep(10) return "%d_%d" % ( 阅读全文
posted @ 2021-04-14 19:47 oaksharks 阅读(179) 评论(0) 推荐(0)
摘要: 表达式:R2=SSR/SST SSR(regression sum of squares)为回归平方和 SST(total sum of squares)为总平方和 SSR与SST接近时模型比较好,也就是R2=1, SST是一个常量, R2的值是一个正数,在1附近比较好。 阅读全文
posted @ 2021-04-09 21:01 oaksharks 阅读(635) 评论(0) 推荐(0)
摘要: 曲线: P-R X轴是Percision, Y轴是Reall。 Percision=TP/FP+TP,也就是预测是阳性并且正确的/预测是阳性的。这个值大意味着这个模型预测出来的阳性很多都是对的,当置信度大时,一般精确度也大。 Recall=TP/TP+FN, 也就是预测是阳性并且正确/所有的阳性。R 阅读全文
posted @ 2021-03-29 18:59 oaksharks 阅读(184) 评论(0) 推荐(0)
摘要: Stacking是堆叠的意思,把多个模型堆叠到一起。 它通过一个元模型把数据堆叠到一起,这个元模型训练的特征就是模型+模型输出的结果,标签是训练集的y。 预测时用所有的模型预测一遍,得到的结果作为特征给元模型,输出最终的结果。 from sklearn import datasets X, y = 阅读全文
posted @ 2021-03-26 13:56 oaksharks 阅读(705) 评论(0) 推荐(0)
摘要: from sklearn.inspection._permutation_importance import permutation_importance from sklearn.datasets import load_iris from sklearn.metrics import get_s 阅读全文
posted @ 2021-03-17 17:24 oaksharks 阅读(143) 评论(0) 推荐(0)
摘要: 思路: 评价测试集与训练集分布是否相像,如果不像,则有可能是发生了漂移。 评价方法: 对训练集打标签0,测试集打标签1生成新数据集 训练一个二分类模型 评价AUC指标,如果非常高,则发生漂移(模型能轻易分辨出训练和测试数据) 依据特征重要性,删除若干个指标,重新训练,并重复步骤2-4,直到auc很低 阅读全文
posted @ 2021-03-08 18:41 oaksharks 阅读(512) 评论(0) 推荐(0)
摘要: numpy 切片 二维数组例子 大多数情况下都是二维的,比较常用。 按行切片 In [2]: import numpy as np In [3]: array = np.array( [[1, 2], [3, 4]]) In [4]: array Out[4]: array([[1, 2], [3, 阅读全文
posted @ 2021-02-08 17:04 oaksharks 阅读(870) 评论(0) 推荐(0)
摘要: # LabelEncoder OrdinalEncoder 输入输出 1d 2d 作用对象 目标列 特征列 OrdinalEncoder 相当于 LabelEncoder 支持多列版,在列多时候有性能优势,处理特征时优先使用OrdinalEncoder. 阅读全文
posted @ 2021-02-07 14:18 oaksharks 阅读(683) 评论(0) 推荐(0)
摘要: 直接使用交叉验证评估超参数 将数据拆分成n份,其中一份作为测试集,剩余的作为训练集,每一份逐次作为测试集,最终得到n个模型,和n个评分, from sklearn.datasets import load_iris from sklearn.model_selection import cross_ 阅读全文
posted @ 2021-01-25 16:32 oaksharks 阅读(121) 评论(0) 推荐(0)
摘要: 构建一个csv文件: import pandas as pd pd.DataFrame(data={"datetime": ["1999-10-10 10:10:10"] * 150, "index": range(150)}).to_csv('/tmp/test.csv', index=False 阅读全文
posted @ 2021-01-19 15:19 oaksharks 阅读(611) 评论(0) 推荐(0)
摘要: 在python模块中导入模块,被导入的模块会成为该模块的子属性,例如创建一个python文件mypackage/side.py内容: import os 那么在side这个模块里应该包含os,在创建一个文件mypackage/main.py内容: from mypackage import side 阅读全文
posted @ 2021-01-14 10:39 oaksharks 阅读(446) 评论(0) 推荐(0)
摘要: 计算logloss函数sklearn.metrics._classification.log_loss 方法签名: def log_loss(y_true, y_pred, eps=1e-15, normalize=True, sample_weight=None, labels=None): 参数 阅读全文
posted @ 2021-01-04 16:46 oaksharks 阅读(1622) 评论(0) 推荐(0)
摘要: 构建测试target数据: from sklearn.datasets import load_iris X, y = load_iris(return_X_y=True) y = y + 1 y 输出: array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 阅读全文
posted @ 2021-01-04 16:00 oaksharks 阅读(559) 评论(0) 推荐(0)
摘要: 使用私有pypi仓库 1. 搭建私有源 在nexus中新加一个pypi(hosted) 类型的仓库 仓库名称为pypi-releases Deployment policy 设置为 Allow redeploy 新仓库的访问地址为:http://localhost:8081/repository/p 阅读全文
posted @ 2020-12-23 16:25 oaksharks 阅读(376) 评论(0) 推荐(0)
摘要: 不同任务类型的激活函数: 二分类:sigmoid 也就是S函数 多分类: softmax 回归: 回归直接输出 不同任务类型的loss函数: 二分类:binary_crossentropy 多分类: - categorical_crossentropy 适用于label做了onehot训练,可以用t 阅读全文
posted @ 2020-11-27 14:18 oaksharks 阅读(117) 评论(0) 推荐(0)