随笔分类 -  ML&DM

摘要:转自:https://www.jianshu.com/p/7467e616f227 文章版权归原作者所有 xgboost 已然火爆机器学习圈,相信不少朋友都使用过。要想彻底掌握xgboost,就必须搞懂其内部的模型原理。这样才能将各个参数对应到模型内部,进而理解参数... 阅读全文
posted @ 2018-10-22 10:44 yucen 阅读(466) 评论(0) 推荐(0)
摘要:特征构建是指通过研究原始数据样本,结合机器学习实战经验和相关领域的专业知识,思考问题的潜在形式和数据结构,人工创造出新的特征,而这些特征对于模型训练又是有益的并且具有一定的工程意义。特征构建的方式主要有单列操作、多列操作、 分组/聚合操作这三种。1. 单列操作在pan... 阅读全文
posted @ 2018-09-26 18:58 yucen 阅读(1176) 评论(0) 推荐(0)
摘要:机器学习实战的特征工程主要包含数据预处理、特征构建、特征选择三步,首先来介绍数据预处理。我选择python作为工具,并将主要用到pandas、numpy等数据工具库。加载库:import pandas as pdimport numpy as np1. 观察数据(1)... 阅读全文
posted @ 2018-09-26 11:00 yucen 阅读(370) 评论(0) 推荐(0)
摘要:一、什么是F1-scoreF1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。此外还有F2分数和F0.5分数。F1分数认为召回率和精确率同等重... 阅读全文
posted @ 2018-09-13 11:38 yucen 阅读(11188) 评论(0) 推荐(0)
摘要:一、聚类聚类属于无监督学习,是其中研究最多,应用最广的算法。作用:(1)作为一个单独过程,寻找数据内部分布结构(2)作为分类等其他学习任务的前驱过程性能度量:聚类性能度量亦称“有效性指标”,由此来评估聚类模型的好坏,并可将其作为聚类过程的优化目标。聚类的目标:簇内相似... 阅读全文
posted @ 2018-06-11 14:15 yucen 阅读(562) 评论(0) 推荐(0)
摘要:一.强化学习的概念1. 基础介绍强化学习模型根据输入学习一系列动作(action),而不同的动作会逐渐累计起来,在某些时候就会得到一些奖赏(reward)。执行某个动作并不能立即获得这个最终奖赏,只能得到一个当前反馈。机器要做的是通过在环境中不断尝试而学得一个策略(p... 阅读全文
posted @ 2018-06-08 11:05 yucen 阅读(1094) 评论(0) 推荐(1)
摘要:公式不好编辑,于是本文是将word编辑好的文章以图片形式上传的…… 阅读全文
posted @ 2018-05-03 16:22 yucen 阅读(142) 评论(0) 推荐(0)
摘要:一、集成学习1. 概念 集成学习(ensemble learning)是通过构建并结合多个学习器来完成学习任务。在一些数据挖掘竞赛中经常需要对几个模型进行融合,这时候就可以用到集成学习算法。2.“个体学习器”分类 集成学习的一般结构:先产生一组“个体学习器... 阅读全文
posted @ 2018-04-25 16:16 yucen 阅读(418) 评论(0) 推荐(0)
摘要:一、特征的分类1. 相关特征:对当前学习任务有用的属性。2. 无关特征:对当前学习任务没有用的属性。3. 冗余特征:包含的信息能从其他特征中推演出来,冗余特征有时候不起作用,有时候则是有益的,对应了学习任务所需的“中间变量”。 二、特征选择1. 概念:从给定的特征集合... 阅读全文
posted @ 2018-03-08 09:13 yucen 阅读(633) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-02-06 18:59 yucen 阅读(119) 评论(0) 推荐(0)