博客园 - cnkai
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=54023
2017-11-13T07:08:37Z
cnkai
https://www.cnblogs.com/cnkai/
feed.cnblogs.com
https://www.cnblogs.com/cnkai/p/7817075.html
八. Pandas的轴 - cnkai
axis=0代表跨行(down),而axis=1代表跨列(across) 使用0值表示沿着每一列或行标签\索引值向下执行方法 使用1值表示沿着每一行或者列标签模向执行对应的方法 下图代表在DataFrame当中axis为0和1时分别代表的含义: axis参数作用方向图示 另外,Pandas保持了Nu
2017-11-10T15:56:00Z
2017-11-10T15:56:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】axis=0代表跨行(down),而axis=1代表跨列(across) 使用0值表示沿着每一列或行标签\索引值向下执行方法 使用1值表示沿着每一行或者列标签模向执行对应的方法 下图代表在DataFrame当中axis为0和1时分别代表的含义: axis参数作用方向图示 另外,Pandas保持了Nu <a href="https://www.cnblogs.com/cnkai/p/7817075.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7817073.html
七. 高级方法 - cnkai
高级方法 apply() apply()是一个非常常用并且好用的方法,它允许我们自定义一个函数并且应用到我们的数据中。 比如我们现在有这样的需求,求出每一列数据的最大值与最小值的差,可以这样使用。 默认情况,是以0轴方向应用的这个函数,但是我们可以指定1轴,这时候,我们求得就是每一行的最大值与最小值
2017-11-10T15:56:00Z
2017-11-10T15:56:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】高级方法 apply() apply()是一个非常常用并且好用的方法,它允许我们自定义一个函数并且应用到我们的数据中。 比如我们现在有这样的需求,求出每一列数据的最大值与最小值的差,可以这样使用。 默认情况,是以0轴方向应用的这个函数,但是我们可以指定1轴,这时候,我们求得就是每一行的最大值与最小值 <a href="https://www.cnblogs.com/cnkai/p/7817073.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7806435.html
几部电影的词云 - cnkai
前段时间,我们爬取了几部热门的电影,分别是《三生三世》,《战狼》,《二十二》,我们今天 就以这几部为例,进行一个简单的词云的制作。 我们主要以《二十二》为例,来制作一个评论的词云。 首先需要安装几个必要的工具库: Pandas 用来实现文件读取和存储,以及必要的数据转换。 jieba 一个强大的分词
2017-11-08T13:52:00Z
2017-11-08T13:52:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】前段时间,我们爬取了几部热门的电影,分别是《三生三世》,《战狼》,《二十二》,我们今天 就以这几部为例,进行一个简单的词云的制作。 我们主要以《二十二》为例,来制作一个评论的词云。 首先需要安装几个必要的工具库: Pandas 用来实现文件读取和存储,以及必要的数据转换。 jieba 一个强大的分词 <a href="https://www.cnblogs.com/cnkai/p/7806435.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7804184.html
南京链家网房源数据可视化 - cnkai
针对抓取到的南京市链家网的房源数据进行一次简单的数据可视化 首先导入必要的库。 读取链家网房源数据的csv文件。 原文件中有每一个房源的链接信息,在这里我们不需要,所以就可以直接删除。 上面表格中的列分别是南京市的行政区划,房源名称,房屋设置,面积,朝向,装修情况的描述,电梯与否,楼层高度,建造时间
2017-11-08T07:14:00Z
2017-11-08T07:14:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】针对抓取到的南京市链家网的房源数据进行一次简单的数据可视化 首先导入必要的库。 读取链家网房源数据的csv文件。 原文件中有每一个房源的链接信息,在这里我们不需要,所以就可以直接删除。 上面表格中的列分别是南京市的行政区划,房源名称,房屋设置,面积,朝向,装修情况的描述,电梯与否,楼层高度,建造时间 <a href="https://www.cnblogs.com/cnkai/p/7804184.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755164.html
回归器评估方法 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 回归器评估方法 explained_variance_score(...) mean_absolute_erroe(...) 平均绝对损失 mean_squared_error(...) 均方损失 median_absolute_error(...) r2
2017-10-30T08:37:00Z
2017-10-30T08:37:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 回归器评估方法 explained_variance_score(...) mean_absolute_erroe(...) 平均绝对损失 mean_squared_error(...) 均方损失 median_absolute_error(...) r2 <a href="https://www.cnblogs.com/cnkai/p/7755164.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755147.html
分类器评估方法:ROC曲线 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 ROC是什么 二元分类器(binary classifier)的分类结果 ROC空间 最好的预测模型在左上角,代表100%的灵敏度和0%的虚警率,被称为完美分类器。 一个随机猜测模型。会给出从左下角到右上角的沿着对角线的点(对角线被称作line of no
2017-10-30T08:36:00Z
2017-10-30T08:36:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 ROC是什么 二元分类器(binary classifier)的分类结果 ROC空间 最好的预测模型在左上角,代表100%的灵敏度和0%的虚警率,被称为完美分类器。 一个随机猜测模型。会给出从左下角到右上角的沿着对角线的点(对角线被称作line of no <a href="https://www.cnblogs.com/cnkai/p/7755147.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755141.html
分类器评估方法:精确度-召回率-F度量(precision-recall-F_measures) - cnkai
注:本文是 "人工智能研究网" 的学习笔记 Precision和Recall都能够从下面的TP,TN,FP,FN里面计算出来。 几个缩写的含义 : 缩写 | 含义 | P | condition positive N | condition negative TP | true positive (
2017-10-30T08:35:00Z
2017-10-30T08:35:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 Precision和Recall都能够从下面的TP,TN,FP,FN里面计算出来。 几个缩写的含义 : 缩写 | 含义 | P | condition positive N | condition negative TP | true positive ( <a href="https://www.cnblogs.com/cnkai/p/7755141.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755134.html
分类器评估方法:准确率和混淆矩阵 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 准确率 accuracy_score:函数计算分类准确率,返回被正确分类的样本比例(default)或者是数量(normalize=False) 在多标签分类问题中,该函数返回子集的准确率,对于一个给定的多标签样本,如果预测得到的标签集合与该样本真正的标签
2017-10-30T08:34:00Z
2017-10-30T08:34:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 准确率 accuracy_score:函数计算分类准确率,返回被正确分类的样本比例(default)或者是数量(normalize=False) 在多标签分类问题中,该函数返回子集的准确率,对于一个给定的多标签样本,如果预测得到的标签集合与该样本真正的标签 <a href="https://www.cnblogs.com/cnkai/p/7755134.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755130.html
分类器评估方法 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 使用sklearn.metrics包中的性能度量函数 1. 分类器性能指标 2. 回归器性能指标 3. 聚类器性能指标 4. 两两距离测度 分类器性能评估指标 将二元分类指标拓展到多类或多标签问题中去
2017-10-30T08:33:00Z
2017-10-30T08:33:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 使用sklearn.metrics包中的性能度量函数 1. 分类器性能指标 2. 回归器性能指标 3. 聚类器性能指标 4. 两两距离测度 分类器性能评估指标 将二元分类指标拓展到多类或多标签问题中去 <a href="https://www.cnblogs.com/cnkai/p/7755130.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755122.html
模型评估方法 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 1. Estimator对象的score方法 2. 在交叉验证中使用scoring参数 3. 使用sklearn.metric中的性能度量函数 Estimator对象的score方法 分类算法必须要继承ClassifierMixin类, 回归算法必须要继承
2017-10-30T08:32:00Z
2017-10-30T08:32:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 1. Estimator对象的score方法 2. 在交叉验证中使用scoring参数 3. 使用sklearn.metric中的性能度量函数 Estimator对象的score方法 分类算法必须要继承ClassifierMixin类, 回归算法必须要继承 <a href="https://www.cnblogs.com/cnkai/p/7755122.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755114.html
模型验证方法 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 模型验证方法一览 名称 | 模块 | 通过交叉验证计算得分 | model_selection.cross_val_score(estimator, X) 对每个输入点产生交叉验证估计 | model_selection.cross_val_predict
2017-10-30T08:31:00Z
2017-10-30T08:31:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 模型验证方法一览 名称 | 模块 | 通过交叉验证计算得分 | model_selection.cross_val_score(estimator, X) 对每个输入点产生交叉验证估计 | model_selection.cross_val_predict <a href="https://www.cnblogs.com/cnkai/p/7755114.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755108.html
数据集划分方法 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 K折交叉验证 模块 | | sklearn.model_selection.KFold | sklearn.model_selection.GroupKFold | sklearn.model_selection.StratifiedKFold | 核心思
2017-10-30T08:30:00Z
2017-10-30T08:30:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 K折交叉验证 模块 | | sklearn.model_selection.KFold | sklearn.model_selection.GroupKFold | sklearn.model_selection.StratifiedKFold | 核心思 <a href="https://www.cnblogs.com/cnkai/p/7755108.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755112.html
超参数优化方法 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,后者成为超参数。比如,支持向量机里面的C, Kernal, game;朴素贝叶斯里面的alpha等。 使用以下的方法获得学习器模型的参数
2017-10-30T08:30:00Z
2017-10-30T08:30:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,后者成为超参数。比如,支持向量机里面的C, Kernal, game;朴素贝叶斯里面的alpha等。 使用以下的方法获得学习器模型的参数 <a href="https://www.cnblogs.com/cnkai/p/7755112.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755097.html
数据预处理:标称型特征的编码和缺失值处理 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 标称型特征编码(Encoding categorical feature) 有些情况下,某些特征的取值不是连续的数值,而是离散的标称变量(categorical)。 比如一个人的特征描述可能是下面的或几种: 这样的特征可以被有效的编码为整型特征值(inte
2017-10-30T08:29:00Z
2017-10-30T08:29:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 标称型特征编码(Encoding categorical feature) 有些情况下,某些特征的取值不是连续的数值,而是离散的标称变量(categorical)。 比如一个人的特征描述可能是下面的或几种: 这样的特征可以被有效的编码为整型特征值(inte <a href="https://www.cnblogs.com/cnkai/p/7755097.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755094.html
数据预处理:规范化(Normalize)和二值化(Binarize) - cnkai
注:本文是 "人工智能研究网" 的学习笔记 规范化(Normalization) Normalization: scaling individual to have unit norm 规范化是指,将单个的样本特征向量变换成具有单位长度(unit norm)的特征向量的过程。当你要使用二次形式(qu
2017-10-30T08:28:00Z
2017-10-30T08:28:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 规范化(Normalization) Normalization: scaling individual to have unit norm 规范化是指,将单个的样本特征向量变换成具有单位长度(unit norm)的特征向量的过程。当你要使用二次形式(qu <a href="https://www.cnblogs.com/cnkai/p/7755094.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755078.html
数据预处理:标准化(Standardization) - cnkai
注:本文是 "人工智能研究网" 的学习笔记 常用的数据预处理方式 1. Standardization, or mean removal and variance scaling 2. Normalization: scaling individual to have unit norm 3. Bi
2017-10-30T08:27:00Z
2017-10-30T08:27:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 常用的数据预处理方式 1. Standardization, or mean removal and variance scaling 2. Normalization: scaling individual to have unit norm 3. Bi <a href="https://www.cnblogs.com/cnkai/p/7755078.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755072.html
特征抽取:特征字典向量化和特征哈希变换 - cnkai
注:本文是 "人工智能研究网" 的学习笔记 sklearn.feature_extaction模块提供了从原始数据如文本,图像等中抽取能够被机器学习算法直接处理的特征向量。 Feature extraction和Feature selection是不同的:前者将任意的数据变换成机器学习算法可用的数值
2017-10-30T08:26:00Z
2017-10-30T08:26:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 sklearn.feature_extaction模块提供了从原始数据如文本,图像等中抽取能够被机器学习算法直接处理的特征向量。 Feature extraction和Feature selection是不同的:前者将任意的数据变换成机器学习算法可用的数值 <a href="https://www.cnblogs.com/cnkai/p/7755072.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755065.html
Pipeline和FeatureUnion - cnkai
注:本文是 "人工智能研究网" 的学习笔记 Pipeline:chaining(链接)estimators Pipeline可以用于把多个estimators级联合成一个estimator。这么做的原因是考虑了数据处理过程的一系列前后相继的固定流程,比如:feature selection norm
2017-10-30T08:25:00Z
2017-10-30T08:25:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 Pipeline:chaining(链接)estimators Pipeline可以用于把多个estimators级联合成一个estimator。这么做的原因是考虑了数据处理过程的一系列前后相继的固定流程,比如:feature selection norm <a href="https://www.cnblogs.com/cnkai/p/7755065.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755045.html
SKLearn数据集API(一) - cnkai
注:本文是 "人工智能研究网" 的学习笔记 数据集一览 类型 | 获取方式 | 自带的小数据集 | sklearn.datasets.load_ 在线下载的数据集 | sklearn.datasets.fetch_ 计算机生成的数据集 | sklearn.datasets.make_ svmligh
2017-10-30T08:23:00Z
2017-10-30T08:23:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 数据集一览 类型 | 获取方式 | 自带的小数据集 | sklearn.datasets.load_ 在线下载的数据集 | sklearn.datasets.fetch_ 计算机生成的数据集 | sklearn.datasets.make_ svmligh <a href="https://www.cnblogs.com/cnkai/p/7755045.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/cnkai/p/7755052.html
SKLearn数据集API(二) - cnkai
注:本文是 "人工智能研究网" 的学习笔记 计算机生成的数据集 用于分类任务和聚类任务,这些函数产生样本特征向量矩阵以及对应的类别标签集合。 数据集 | 简介 | make_blobs | 多类单标签数据集,为每个类分配一个或者多个正态分布的点集,提供了控制每个数据点的参数:中心点(均值),标准差,
2017-10-30T08:23:00Z
2017-10-30T08:23:00Z
cnkai
https://www.cnblogs.com/cnkai/
【摘要】注:本文是 "人工智能研究网" 的学习笔记 计算机生成的数据集 用于分类任务和聚类任务,这些函数产生样本特征向量矩阵以及对应的类别标签集合。 数据集 | 简介 | make_blobs | 多类单标签数据集,为每个类分配一个或者多个正态分布的点集,提供了控制每个数据点的参数:中心点(均值),标准差, <a href="https://www.cnblogs.com/cnkai/p/7755052.html" target="_blank">阅读全文</a>