摘要: 注:本文是 "人工智能研究网" 的学习笔记 回归器评估方法 explained_variance_score(...) mean_absolute_erroe(...) 平均绝对损失 mean_squared_error(...) 均方损失 median_absolute_error(...) r2 阅读全文
posted @ 2017-10-30 16:37 cnkai 阅读(1206) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 ROC是什么 二元分类器(binary classifier)的分类结果 ROC空间 最好的预测模型在左上角,代表100%的灵敏度和0%的虚警率,被称为完美分类器。 一个随机猜测模型。会给出从左下角到右上角的沿着对角线的点(对角线被称作line of no 阅读全文
posted @ 2017-10-30 16:36 cnkai 阅读(3226) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 Precision和Recall都能够从下面的TP,TN,FP,FN里面计算出来。 几个缩写的含义 : 缩写 | 含义 | P | condition positive N | condition negative TP | true positive ( 阅读全文
posted @ 2017-10-30 16:35 cnkai 阅读(11296) 评论(2) 推荐(2) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 准确率 accuracy_score:函数计算分类准确率,返回被正确分类的样本比例(default)或者是数量(normalize=False) 在多标签分类问题中,该函数返回子集的准确率,对于一个给定的多标签样本,如果预测得到的标签集合与该样本真正的标签 阅读全文
posted @ 2017-10-30 16:34 cnkai 阅读(24953) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 使用sklearn.metrics包中的性能度量函数 1. 分类器性能指标 2. 回归器性能指标 3. 聚类器性能指标 4. 两两距离测度 分类器性能评估指标 将二元分类指标拓展到多类或多标签问题中去 阅读全文
posted @ 2017-10-30 16:33 cnkai 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 1. Estimator对象的score方法 2. 在交叉验证中使用scoring参数 3. 使用sklearn.metric中的性能度量函数 Estimator对象的score方法 分类算法必须要继承ClassifierMixin类, 回归算法必须要继承 阅读全文
posted @ 2017-10-30 16:32 cnkai 阅读(2290) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 模型验证方法一览 名称 | 模块 | 通过交叉验证计算得分 | model_selection.cross_val_score(estimator, X) 对每个输入点产生交叉验证估计 | model_selection.cross_val_predict 阅读全文
posted @ 2017-10-30 16:31 cnkai 阅读(3149) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 K折交叉验证 模块 | | sklearn.model_selection.KFold | sklearn.model_selection.GroupKFold | sklearn.model_selection.StratifiedKFold | 核心思 阅读全文
posted @ 2017-10-30 16:30 cnkai 阅读(1628) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,后者成为超参数。比如,支持向量机里面的C, Kernal, game;朴素贝叶斯里面的alpha等。 使用以下的方法获得学习器模型的参数 阅读全文
posted @ 2017-10-30 16:30 cnkai 阅读(1731) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 标称型特征编码(Encoding categorical feature) 有些情况下,某些特征的取值不是连续的数值,而是离散的标称变量(categorical)。 比如一个人的特征描述可能是下面的或几种: 这样的特征可以被有效的编码为整型特征值(inte 阅读全文
posted @ 2017-10-30 16:29 cnkai 阅读(3231) 评论(0) 推荐(1) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 规范化(Normalization) Normalization: scaling individual to have unit norm 规范化是指,将单个的样本特征向量变换成具有单位长度(unit norm)的特征向量的过程。当你要使用二次形式(qu 阅读全文
posted @ 2017-10-30 16:28 cnkai 阅读(4643) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 常用的数据预处理方式 1. Standardization, or mean removal and variance scaling 2. Normalization: scaling individual to have unit norm 3. Bi 阅读全文
posted @ 2017-10-30 16:27 cnkai 阅读(1834) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 sklearn.feature_extaction模块提供了从原始数据如文本,图像等中抽取能够被机器学习算法直接处理的特征向量。 Feature extraction和Feature selection是不同的:前者将任意的数据变换成机器学习算法可用的数值 阅读全文
posted @ 2017-10-30 16:26 cnkai 阅读(3956) 评论(1) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 Pipeline:chaining(链接)estimators Pipeline可以用于把多个estimators级联合成一个estimator。这么做的原因是考虑了数据处理过程的一系列前后相继的固定流程,比如:feature selection norm 阅读全文
posted @ 2017-10-30 16:25 cnkai 阅读(406) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 数据集一览 类型 | 获取方式 | 自带的小数据集 | sklearn.datasets.load_ 在线下载的数据集 | sklearn.datasets.fetch_ 计算机生成的数据集 | sklearn.datasets.make_ svmligh 阅读全文
posted @ 2017-10-30 16:23 cnkai 阅读(3115) 评论(0) 推荐(0) 编辑
摘要: 注:本文是 "人工智能研究网" 的学习笔记 计算机生成的数据集 用于分类任务和聚类任务,这些函数产生样本特征向量矩阵以及对应的类别标签集合。 数据集 | 简介 | make_blobs | 多类单标签数据集,为每个类分配一个或者多个正态分布的点集,提供了控制每个数据点的参数:中心点(均值),标准差, 阅读全文
posted @ 2017-10-30 16:23 cnkai 阅读(1556) 评论(0) 推荐(0) 编辑
摘要: 六大板块 分类 | 回归 | 聚类 | 数据降维 | 数据预处理 | 特征抽取 | | | | | 统一API estimator.fit(X_train,[y_train]) | estimator.fit(X_train,[y_train]) | estimator.predict(X_test 阅读全文
posted @ 2017-10-30 16:20 cnkai 阅读(662) 评论(0) 推荐(0) 编辑