oaksharks - 博客园

2021年3月

摘要：思路：评价测试集与训练集分布是否相像，如果不像，则有可能是发生了漂移。评价方法：对训练集打标签0，测试集打标签1生成新数据集训练一个二分类模型评价AUC指标，如果非常高，则发生漂移（模型能轻易分辨出训练和测试数据）依据特征重要性，删除若干个指标，重新训练，并重复步骤2-4，直到auc很低阅读全文

posted @ 2021-03-08 18:41 oaksharks 阅读(417) 评论(0) 推荐(0) 编辑

2021年2月

numpy和pandas数组切片

摘要： numpy 切片二维数组例子大多数情况下都是二维的，比较常用。按行切片 In [2]: import numpy as np In [3]: array = np.array( [[1, 2], [3, 4]]) In [4]: array Out[4]: array([[1, 2], [3, 阅读全文

posted @ 2021-02-08 17:04 oaksharks 阅读(782) 评论(0) 推荐(0) 编辑

docker -ti

摘要： docker -it -t, --tty Allocate a pseudo-TTY -i, --interactive Keep STDIN open even if not attached -t的作用可以开启一个伪终端，先来执行一个不带-t参数的命令： $ docker run centos: 阅读全文

posted @ 2021-02-08 11:21 oaksharks 阅读(608) 评论(0) 推荐(0) 编辑

LabelEncoder和OrdinalEncoder

摘要： # LabelEncoder OrdinalEncoder 输入输出 1d 2d 作用对象目标列特征列 OrdinalEncoder 相当于 LabelEncoder 支持多列版，在列多时候有性能优势，处理特征时优先使用OrdinalEncoder. 阅读全文

posted @ 2021-02-07 14:18 oaksharks 阅读(593) 评论(0) 推荐(0) 编辑

dva数据流

摘要：数据流、我理解为用户输入=> 后台响应 => 页面渲染, dva的作用是中间一环，把响应数据给页面去渲染，把来自浏览器的数据发送给后端服务，这里面的两个关键问题：如何把用户输入数据给dva, dva再传给服务器 dva的数据如何传递页面 dva分别提供了两个关键函数dispatch和connect 阅读全文

posted @ 2021-02-05 17:48 oaksharks 阅读(401) 评论(0) 推荐(0) 编辑

自定义React组件

摘要：如果还没有项目，请看创建umi项目 . 访问http://localhost:8000 实际由src/pages/index.js渲染，内容为： export default function() { return "Hello" } 使用antd添加一个输入框和一个按钮： import {Butt 阅读全文

posted @ 2021-02-05 14:41 oaksharks 阅读(447) 评论(0) 推荐(0) 编辑

创建umi项目

摘要：使用umi构建react项目，先安装umi: npm install create-umi umi -g 然后交互式创建项目: ❯ mkdir demo ❯ cd demo ❯ create-umi ? Select the boilerplate type app ? Do you want to 阅读全文

posted @ 2021-02-05 13:44 oaksharks 阅读(474) 评论(0) 推荐(0) 编辑

2021年1月

rst标记语法

摘要：插入链接 `Hypernets <https://github.com/DataCanvasIO/Hypernets>`_ 效果： Hypernets 注意开始插入链接标记的开始和结束都要有空格。行内标记 ``Searcher `` 这个标记前后也要有空格。效果： Searcher 标题一级标阅读全文

posted @ 2021-01-29 16:28 oaksharks 阅读(641) 评论(0) 推荐(0) 编辑

交叉验证

摘要：直接使用交叉验证评估超参数将数据拆分成n份，其中一份作为测试集，剩余的作为训练集，每一份逐次作为测试集，最终得到n个模型，和n个评分， from sklearn.datasets import load_iris from sklearn.model_selection import cross_ 阅读全文

posted @ 2021-01-25 16:32 oaksharks 阅读(102) 评论(0) 推荐(0) 编辑

pandas自动推断日期类型

摘要：构建一个csv文件: import pandas as pd pd.DataFrame(data={"datetime": ["1999-10-10 10:10:10"] * 150, "index": range(150)}).to_csv('/tmp/test.csv', index=False 阅读全文

posted @ 2021-01-19 15:19 oaksharks 阅读(475) 评论(0) 推荐(0) 编辑

Python 中__init__.py 的作用

摘要：在python模块中导入模块，被导入的模块会成为该模块的子属性，例如创建一个python文件mypackage/side.py内容： import os 那么在side这个模块里应该包含os，在创建一个文件mypackage/main.py内容: from mypackage import side 阅读全文

posted @ 2021-01-14 10:39 oaksharks 阅读(416) 评论(0) 推荐(0) 编辑

sklearn logloss计算

摘要：计算logloss函数sklearn.metrics._classification.log_loss 方法签名： def log_loss(y_true, y_pred, eps=1e-15, normalize=True, sample_weight=None, labels=None): 参数阅读全文

posted @ 2021-01-04 16:46 oaksharks 阅读(1511) 评论(0) 推荐(0) 编辑

to_categorical

摘要：构建测试target数据： from sklearn.datasets import load_iris X, y = load_iris(return_X_y=True) y = y + 1 y 输出： array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 阅读全文

posted @ 2021-01-04 16:00 oaksharks 阅读(528) 评论(0) 推荐(0) 编辑

2020年12月

Docker 镜像迁移

摘要：通过文件 1. 导出镜像使用save导出镜像会在镜像中保存tag名称，导出时还是同一个tag。 docker save -o <fileName> <tagName> 如果希望对生成的tar进行压缩可以： docker save <tagName> | gzip > <fileName> 2. 导阅读全文

posted @ 2020-12-23 19:50 oaksharks 阅读(126) 评论(0) 推荐(0) 编辑

pypi仓库

摘要：使用私有pypi仓库 1. 搭建私有源在nexus中新加一个pypi(hosted) 类型的仓库仓库名称为pypi-releases Deployment policy 设置为 Allow redeploy 新仓库的访问地址为：http://localhost:8081/repository/p 阅读全文

posted @ 2020-12-23 16:25 oaksharks 阅读(329) 评论(0) 推荐(0) 编辑

2020年11月

Tensorflow任务类型

摘要：不同任务类型的激活函数：二分类：sigmoid 也就是S函数多分类: softmax 回归：回归直接输出不同任务类型的loss函数：二分类：binary_crossentropy 多分类: - categorical_crossentropy 适用于label做了onehot训练，可以用t 阅读全文

posted @ 2020-11-27 14:18 oaksharks 阅读(108) 评论(0) 推荐(0) 编辑

Tensorflow处理变长特征

摘要：处理流程：变长特征分割成变长数组变长数据填充成规则数组，组成n * m的矩阵 (keras.preprocessing.sequence.pad_sequences) 每一行数据进行embedding，结果可以按权重求平均、直接求平均、求最大值得到 n*1结果矩阵第3步求平均可以用tf.nn 阅读全文

posted @ 2020-11-27 13:56 oaksharks 阅读(928) 评论(0) 推荐(0) 编辑

Embedding

摘要： Embedding 就是字典映射，把一个类别映射到一个向量上，方便学习特征。比如对于特征gender有取值有 male,female，创建一个矩阵2*2的矩阵： [[1,2], [3,4]] 把 male 映射到第一行，得到[1,2]，female 映射到二行得到[3,4]；它与LabelEncod 阅读全文

posted @ 2020-11-27 11:49 oaksharks 阅读(634) 评论(0) 推荐(0) 编辑

tf.concat

摘要： tf.concat是把多个tensor合并成一个，合并增加行： import tensorflow as tf tensor_1 = tf.constant([[1, 2], [3, 4], [5, 6]] ) # 2*3 tensor_2 = tf.constant([[7, 8], [9, 10 阅读全文

posted @ 2020-11-26 19:41 oaksharks 阅读(157) 评论(0) 推荐(0) 编辑

tf.gather

摘要： gather就是按行取值： a1 = [[1,2], [3, 4], [5, 6]] a2 = tf.gather(tf.constant(a1), [0, 1]) print(a2) 输出： tf.Tensor( [[1 2] [3 4]], shape=(2, 2), dtype=int32) 阅读全文

posted @ 2020-11-26 19:27 oaksharks 阅读(220) 评论(0) 推荐(0) 编辑

公告