随笔分类 -  机器学习

摘要:转自:3.4 解决样本类别分布不均衡的问题 | 数据常青藤 (组织排版上稍有修改) 3.4 解决样本类别分布不均衡的问题 说明:本文是《Python数据分析与数据化运营》中的“3.4 解决样本类别分布不均衡的问题”。 下面是正文内容 所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要 阅读全文
posted @ 2018-10-10 14:56 焦距 阅读(5649) 评论(0) 推荐(0) 编辑
摘要:在总结正则化(Regularization)之前,我们先谈一谈正则化是什么,为什么要正则化。 个人认为正则化这个字眼有点太过抽象和宽泛,其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可 阅读全文
posted @ 2018-08-27 14:37 焦距 阅读(3981) 评论(0) 推荐(0) 编辑
摘要:阅读目录 梯度下降法(Gradient Descent) 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods) 共轭梯度法(Conjugate Gradient) 启发式优化方法 解决约束优化问题——拉格朗日乘数法 我们每个人都会在我们的生活或者工作中遇到 阅读全文
posted @ 2018-08-23 10:47 焦距 阅读(13620) 评论(0) 推荐(2) 编辑
摘要:show the code: 参考的是sklearn中的样例: Gradient Boosting regression — scikit-learn 0.19.2 documentation 画出的图如下所示: 阅读全文
posted @ 2018-08-15 19:46 焦距 阅读(4411) 评论(0) 推荐(0) 编辑
摘要:1.引言 提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们道个歉。尴尬的是,按理说,机器学习介绍与算法一览应该放在最前面写,详细的应用建议应该在讲完机器学习常用算法之后写,突然莫名奇妙在中间插播这么一篇,好像有点打乱主线。 老 阅读全文
posted @ 2018-06-07 20:30 焦距 阅读(408) 评论(0) 推荐(0) 编辑
摘要:在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了,这个问题也在学术界讨论的比较多。(之前搜了很多有的博客,讲的 阅读全文
posted @ 2018-06-07 20:28 焦距 阅读(469) 评论(0) 推荐(0) 编辑
摘要:在训练深度学习模型的时候,通常将数据集切分为训练集和验证集.Keras提供了两种评估模型性能的方法: 使用自动切分的验证集 使用手动切分的验证集 一.自动切分 在Keras中,可以从数据集中切分出一部分作为验证集,并且在每次迭代(epoch)时在验证集中评估模型的性能. 具体地,调用model.fi 阅读全文
posted @ 2018-05-14 15:45 焦距 阅读(25900) 评论(2) 推荐(4) 编辑
摘要:sklearn中,计数向量化用CountVectorizer,tfidf向量化用TfidfVectorizer: TfidfVectorizer初始化对象时可以指定归一化参数norm : 'l1', 'l2' or None, optional Countvectorizer和TfidfVector 阅读全文
posted @ 2018-03-29 15:39 焦距 阅读(2595) 评论(0) 推荐(0) 编辑
摘要:记正样本为P,负样本为N,下表比较完整地总结了准确率accuracy、精度precision、召回率recall、F1-score等评价指标的计算方式: (右键点击在新页面打开,可查看清晰图像) 简单版: *********************************************** 阅读全文
posted @ 2018-03-21 17:05 焦距 阅读(22706) 评论(0) 推荐(1) 编辑