随笔分类 -  机器学习

摘要:neurolab模块相当于Matlab的神经网络工具箱(NNT) neurolab模块支持的网络类型: 单层感知机(single layer perceptron) 多层前馈感知机(Multilayer feed forward perceptron) 竞争层(Kohonen Layer) 学习向量 阅读全文
posted @ 2019-03-01 10:01 迷茫的计算机呆 阅读(8370) 评论(0) 推荐(1)
摘要:作者:wepon链接:https://www.zhihu.com/question/41354392/answer/98658997来源:知乎传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回 阅读全文
posted @ 2019-02-28 10:30 迷茫的计算机呆 阅读(370) 评论(0) 推荐(0)
摘要:向大佬学习:https://zhuanlan.zhihu.com/p/32896968 https://blog.csdn.net/wstcjf/article/details/77989963 这个厉害 1、stacking的框架设计比较复杂,对于一个基模型要训练5次,如果你的一个xgb模型要训练 阅读全文
posted @ 2019-02-27 22:23 迷茫的计算机呆 阅读(871) 评论(0) 推荐(0)
摘要:bp神经网络的输出层可以有不止一个节点。 bp神经网络降低误差,加快学习速度的方法: 三层BP神经网络能够以任意精度逼近任意映射关系,只有当学习不连续函数时,才需要多个隐层。 阅读全文
posted @ 2019-01-17 16:52 迷茫的计算机呆 阅读(227) 评论(0) 推荐(0)
摘要:参考:https://www.jianshu.com/p/498ea0d8017d https://zhuanlan.zhihu.com/p/30721429 https://blog.csdn.net/qq_34424731/article/details/70245146 分布漂移:选用模型开始 阅读全文
posted @ 2018-08-23 09:18 迷茫的计算机呆 阅读(146) 评论(0) 推荐(0)
摘要:转载:https://blog.csdn.net/IqqIqqIqqIqq/article/details/78857411 1 基于sklearn的实现 输出为 基于不纯度对模型进行排序有几点需要注意: (1)基于不纯度降低的特征选择将会偏向于选择那些具有较多类别的变量(bias)。 (2)当存在 阅读全文
posted @ 2018-08-22 21:40 迷茫的计算机呆 阅读(5048) 评论(0) 推荐(0)
摘要:简单的模型有较大的偏差和较小的方差,复杂的模型在预测中有更大的方差。 交叉验证 使用更多数据 删除无用特征 正则化 集成学习 阅读全文
posted @ 2018-07-26 08:15 迷茫的计算机呆 阅读(135) 评论(0) 推荐(0)
摘要:第一步:语料转化为词袋向量 step 1. 声明一个向量化工具vectorizer; 本文使用的是CountVectorizer,默认情况下,CountVectorizer仅统计长度超过两个字符的词,但是在短文本中任何一个字都可能十分重要,比如“去/到”等,所以要想让CountVectorizer也 阅读全文
posted @ 2018-07-20 22:44 迷茫的计算机呆 阅读(569) 评论(0) 推荐(0)
摘要:特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化:这是最常见的特征预处 阅读全文
posted @ 2018-07-04 19:30 迷茫的计算机呆 阅读(202) 评论(0) 推荐(0)
摘要:转载自https://mp.weixin.qq.com/s/F6OUktbaGF_7lcIbh_6bYg 缺失值处理 首先看该特征是连续值还是离散值 如果是连续值,那么一般有两种选择,一是选择所有有该特征值的样本,然后取平均值,来填充缺失值,另一种是取中位数来填充缺失值 如果是离散值,则一般会选择所 阅读全文
posted @ 2018-07-02 21:55 迷茫的计算机呆 阅读(524) 评论(0) 推荐(0)
摘要:过滤法:filter 4. 互信息:互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。在sklearn中,可以使用mutual_info_classif(分类)和mutual_info_regression(回归)来计算各个输入特征和输出值之间的互信息。 个人经验是,在没有什么思路的 时 阅读全文
posted @ 2018-06-30 22:22 迷茫的计算机呆 阅读(489) 评论(0) 推荐(1)
摘要:转载自:https://blog.csdn.net/wtq1993/article/details/51418958 LB,CV分数 在某些比赛中,由于数据分布比较奇葩或是噪声过强,Public LB 的分数可能会跟 Local CV 的结果相去甚远。可以根据一些统计测试的结果来粗略地建立一个阈值, 阅读全文
posted @ 2018-06-19 17:15 迷茫的计算机呆 阅读(157) 评论(0) 推荐(0)
摘要:判断单个特征是否有用 groupby().mean(): 将单个特征与结果分组统计平均值,观察得出是否是有用特征。 比如在泰坦尼克预测中,统计Sex和最后的suivived的分组平均值,得出sex是有用特征。 这里必须加两个中括号,一个中括号会报错。 阅读全文
posted @ 2018-06-05 17:00 迷茫的计算机呆 阅读(196) 评论(0) 推荐(0)
摘要:摘自 章华燕 思想:对于任意的 n 维输入向量,其对应于特征空间一个点,输出为该特征向量所对应的类别标签或者预测值。 它实际上的工作原理是利用训练数据对特征向量空间进行划分,并将其划分的结果作为其最终的算法模型。 分类算法 KNN 分类算法的分类预测过程十分的简单和容易理解:对于一个需要预测的输入向 阅读全文
posted @ 2018-06-04 23:02 迷茫的计算机呆 阅读(234) 评论(0) 推荐(0)
摘要:参考:https://www.kaggle.com/startupsci/titanic-data-science-solutions 哪些特征是分类特征: 哪些特征是数字类型的: 哪些特征是混合类型 哪些特征可能包含错误或者手误: 哪些特征包含空格,null 或空值 各个特征的数据类型是什么 数字 阅读全文
posted @ 2018-05-08 21:38 迷茫的计算机呆 阅读(216) 评论(0) 推荐(0)
摘要:自己包含了很多数据集 也提供了函数来生成虚拟数据。 normalize(),scale()等函数 除非特别指定,输入将被转换为 float64 模型持久化 使用 LabelBinarizer 将目标向量 y 转化成二值化后的二维数组 阅读全文
posted @ 2018-05-03 20:59 迷茫的计算机呆 阅读(140) 评论(0) 推荐(0)
摘要:111 阅读全文
posted @ 2018-05-03 19:19 迷茫的计算机呆 阅读(1088) 评论(0) 推荐(0)
摘要:转载 https://www.cnblogs.com/chaosimple/p/4153167.html 一、标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std 计算时对每个属性/每列分别进行。 将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每 阅读全文
posted @ 2018-05-03 15:56 迷茫的计算机呆 阅读(1671) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-05-03 15:20 迷茫的计算机呆 阅读(100) 评论(0) 推荐(0)
摘要:转载自:https://www.leiphone.com/news/201706/dTRE5ow9qBVLkZSY.html 数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的 阅读全文
posted @ 2018-04-12 19:05 迷茫的计算机呆 阅读(1747) 评论(0) 推荐(1)