摘要: 思路: 评价测试集与训练集分布是否相像,如果不像,则有可能是发生了漂移。 评价方法: 对训练集打标签0,测试集打标签1生成新数据集 训练一个二分类模型 评价AUC指标,如果非常高,则发生漂移(模型能轻易分辨出训练和测试数据) 依据特征重要性,删除若干个指标,重新训练,并重复步骤2-4,直到auc很低 阅读全文
posted @ 2021-03-08 18:41 oaksharks 阅读(417) 评论(0) 推荐(0) 编辑
摘要: numpy 切片 二维数组例子 大多数情况下都是二维的,比较常用。 按行切片 In [2]: import numpy as np In [3]: array = np.array( [[1, 2], [3, 4]]) In [4]: array Out[4]: array([[1, 2], [3, 阅读全文
posted @ 2021-02-08 17:04 oaksharks 阅读(782) 评论(0) 推荐(0) 编辑
摘要: docker -it -t, --tty Allocate a pseudo-TTY -i, --interactive Keep STDIN open even if not attached -t的作用可以开启一个伪终端,先来执行一个不带-t参数的命令: $ docker run centos: 阅读全文
posted @ 2021-02-08 11:21 oaksharks 阅读(608) 评论(0) 推荐(0) 编辑
摘要: # LabelEncoder OrdinalEncoder 输入输出 1d 2d 作用对象 目标列 特征列 OrdinalEncoder 相当于 LabelEncoder 支持多列版,在列多时候有性能优势,处理特征时优先使用OrdinalEncoder. 阅读全文
posted @ 2021-02-07 14:18 oaksharks 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 数据流、我理解为用户输入=> 后台响应 => 页面渲染, dva的作用是中间一环,把响应数据给页面去渲染,把来自浏览器的数据发送给后端服务,这里面的两个关键问题: 如何把用户输入数据给dva, dva再传给服务器 dva的数据如何传递页面 dva分别提供了两个关键函数dispatch和connect 阅读全文
posted @ 2021-02-05 17:48 oaksharks 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 如果还没有项目,请看创建umi项目 . 访问http://localhost:8000 实际由src/pages/index.js渲染,内容为: export default function() { return "Hello" } 使用antd添加一个输入框和一个按钮: import {Butt 阅读全文
posted @ 2021-02-05 14:41 oaksharks 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 使用umi构建react项目,先安装umi: npm install create-umi umi -g 然后交互式创建项目: ❯ mkdir demo ❯ cd demo ❯ create-umi ? Select the boilerplate type app ? Do you want to 阅读全文
posted @ 2021-02-05 13:44 oaksharks 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 插入链接 `Hypernets <https://github.com/DataCanvasIO/Hypernets>`_ 效果: Hypernets 注意开始插入链接标记的开始和结束都要有空格。 行内标记 ``Searcher `` 这个标记前后也要有空格。 效果: Searcher 标题 一级标 阅读全文
posted @ 2021-01-29 16:28 oaksharks 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 直接使用交叉验证评估超参数 将数据拆分成n份,其中一份作为测试集,剩余的作为训练集,每一份逐次作为测试集,最终得到n个模型,和n个评分, from sklearn.datasets import load_iris from sklearn.model_selection import cross_ 阅读全文
posted @ 2021-01-25 16:32 oaksharks 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 构建一个csv文件: import pandas as pd pd.DataFrame(data={"datetime": ["1999-10-10 10:10:10"] * 150, "index": range(150)}).to_csv('/tmp/test.csv', index=False 阅读全文
posted @ 2021-01-19 15:19 oaksharks 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 在python模块中导入模块,被导入的模块会成为该模块的子属性,例如创建一个python文件mypackage/side.py内容: import os 那么在side这个模块里应该包含os,在创建一个文件mypackage/main.py内容: from mypackage import side 阅读全文
posted @ 2021-01-14 10:39 oaksharks 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 计算logloss函数sklearn.metrics._classification.log_loss 方法签名: def log_loss(y_true, y_pred, eps=1e-15, normalize=True, sample_weight=None, labels=None): 参数 阅读全文
posted @ 2021-01-04 16:46 oaksharks 阅读(1511) 评论(0) 推荐(0) 编辑
摘要: 构建测试target数据: from sklearn.datasets import load_iris X, y = load_iris(return_X_y=True) y = y + 1 y 输出: array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 阅读全文
posted @ 2021-01-04 16:00 oaksharks 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 通过文件 1. 导出镜像 使用save导出镜像会在镜像中保存tag名称,导出时还是同一个tag。 docker save -o <fileName> <tagName> 如果希望对生成的tar进行压缩可以: docker save <tagName> | gzip > <fileName> 2. 导 阅读全文
posted @ 2020-12-23 19:50 oaksharks 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 使用私有pypi仓库 1. 搭建私有源 在nexus中新加一个pypi(hosted) 类型的仓库 仓库名称为pypi-releases Deployment policy 设置为 Allow redeploy 新仓库的访问地址为:http://localhost:8081/repository/p 阅读全文
posted @ 2020-12-23 16:25 oaksharks 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 不同任务类型的激活函数: 二分类:sigmoid 也就是S函数 多分类: softmax 回归: 回归直接输出 不同任务类型的loss函数: 二分类:binary_crossentropy 多分类: - categorical_crossentropy 适用于label做了onehot训练,可以用t 阅读全文
posted @ 2020-11-27 14:18 oaksharks 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 处理流程: 变长特征分割成变长数组 变长数据填充成规则数组,组成n * m的矩阵 (keras.preprocessing.sequence.pad_sequences) 每一行数据进行embedding,结果可以按权重求平均、直接求平均、求最大值 得到 n*1结果矩阵 第3步求平均可以用tf.nn 阅读全文
posted @ 2020-11-27 13:56 oaksharks 阅读(928) 评论(0) 推荐(0) 编辑
摘要: Embedding 就是字典映射,把一个类别映射到一个向量上,方便学习特征。比如对于特征gender有取值有 male,female,创建一个矩阵2*2的矩阵: [[1,2], [3,4]] 把 male 映射到第一行,得到[1,2],female 映射到二行得到[3,4];它与LabelEncod 阅读全文
posted @ 2020-11-27 11:49 oaksharks 阅读(634) 评论(0) 推荐(0) 编辑
摘要: tf.concat是把多个tensor合并成一个,合并增加行: import tensorflow as tf tensor_1 = tf.constant([[1, 2], [3, 4], [5, 6]] ) # 2*3 tensor_2 = tf.constant([[7, 8], [9, 10 阅读全文
posted @ 2020-11-26 19:41 oaksharks 阅读(157) 评论(0) 推荐(0) 编辑
摘要: gather就是按行取值: a1 = [[1,2], [3, 4], [5, 6]] a2 = tf.gather(tf.constant(a1), [0, 1]) print(a2) 输出: tf.Tensor( [[1 2] [3 4]], shape=(2, 2), dtype=int32) 阅读全文
posted @ 2020-11-26 19:27 oaksharks 阅读(220) 评论(0) 推荐(0) 编辑