随笔分类 -  数据挖掘

该文被密码保护。
posted @ 2018-11-13 18:55 白开水加糖 阅读(0) 评论(0) 推荐(0)
摘要:原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻译与校对:@酒酒Angie(drmr_anki@qq.com) && 寒小阳(hanxiaoyang.ml@ 阅读全文
posted @ 2017-12-27 11:36 白开水加糖 阅读(4806) 评论(0) 推荐(2)
摘要:本文转载自:链接 Highlights Three different methods for parallel gradient boosting decision trees. My algorithm and implementation is competitve with (and in 阅读全文
posted @ 2017-12-26 21:21 白开水加糖 阅读(816) 评论(0) 推荐(0)
摘要:机器学习 数据预处理之独热编码(One-Hot Encoding)(转) 问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["us 阅读全文
posted @ 2017-09-26 15:42 白开水加糖 阅读(724) 评论(0) 推荐(0)
摘要:1、交叉熵的定义: 在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下: 假设现在有一个样本集中两个概率分布p,q,其中p为真实 阅读全文
posted @ 2017-08-29 10:55 白开水加糖 阅读(394) 评论(0) 推荐(0)
摘要:像一个优秀的工程师一样使用机器学习,而不要像一个机器学习专家一样使用机器学习方法。 google 当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。 一、什么是特征工程 阅读全文
posted @ 2017-08-22 16:43 白开水加糖 阅读(45090) 评论(5) 推荐(5)
摘要:CPC(Cost per click)按照 广告 点击数 计费 ,限定一个IP在24小时内只能点击一次。CPM(Cost per mille)按照广告显示次数来计算广告费,可在短时间内为 网站 带来巨大访问量。CPL(Cost per lead):按照广告点击引导用户到达服务商指定网页的客户数量计费 阅读全文
posted @ 2017-01-15 21:45 白开水加糖 阅读(14947) 评论(1) 推荐(0)
摘要:一、CART分类与回归树 资料转载: http://dataunion.org/5771.html 资料转载: http://dataunion.org/5771.html Classification And Regression Tree(CART)是决策树的一种,并且是非常重要的决策树,属于T 阅读全文
posted @ 2016-11-26 23:44 白开水加糖 阅读(11775) 评论(7) 推荐(4)
摘要:这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址, 在这里致谢作者的研究。 一并列出一些找到的介绍boosting算法的资源: 阅读全文
posted @ 2016-11-19 17:11 白开水加糖 阅读(335) 评论(0) 推荐(0)
摘要:特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性)的特征。 区别与联系 特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征。 特征选择:从特征集合中挑选一组最具统计意义的 阅读全文
posted @ 2016-08-27 16:32 白开水加糖 阅读(25280) 评论(0) 推荐(0)
摘要:几个可以学习gibbs sampling的方法1,读Bishop的Pattern Recognition and Machine Learning,讲的很清楚,但是我记得好像没有例子。2,读artificial Intelligence,2、3版,都有。但是我没读过。3,最方便的,查wiki,这个说 阅读全文
posted @ 2016-08-23 20:13 白开水加糖 阅读(3987) 评论(0) 推荐(0)
摘要:Ridge Regression岭回归 数值计算方法的“稳定性”是指在计算过程中舍入误差是可以控制的。 对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说,如果主元(即 阅读全文
posted @ 2016-08-18 12:58 白开水加糖 阅读(538) 评论(0) 推荐(0)
摘要:1.1 算法简介 最小哈希(minhash),简单来说就是从用户喜欢的所有商品中随机抽出n个商品,对于抽出的这n个商品都相同的几个用户,认为是兴趣相似的用户,属于同一类。例如用户A喜欢商品{a、b、c},用户B喜欢商品{b、c、d},用户C喜欢商品{c、e、f},在每个用户喜欢的商品列表中都随机抽出 阅读全文
posted @ 2016-08-02 11:49 白开水加糖 阅读(1049) 评论(0) 推荐(0)
摘要:两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge loss。这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑support vectors,也就是和分类最相 阅读全文
posted @ 2016-07-15 20:45 白开水加糖 阅读(4980) 评论(0) 推荐(0)
摘要:1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题? A.关联规则发现 B.聚类 C.分类 D.自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准? (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了 阅读全文
posted @ 2016-04-14 17:44 白开水加糖 阅读(7555) 评论(0) 推荐(0)
摘要:正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来... 阅读全文
posted @ 2016-01-08 21:13 白开水加糖 阅读(699) 评论(0) 推荐(0)
摘要:SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论... 阅读全文
posted @ 2016-01-08 17:11 白开水加糖 阅读(1235) 评论(0) 推荐(0)
摘要:信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。IR的评价指标,通常分为三个方面:(1)效率(Efficiency)—可以... 阅读全文
posted @ 2016-01-08 16:02 白开水加糖 阅读(9738) 评论(0) 推荐(0)
摘要:版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解... 阅读全文
posted @ 2016-01-08 15:20 白开水加糖 阅读(16547) 评论(0) 推荐(1)
摘要:(一)SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构... 阅读全文
posted @ 2015-12-30 10:27 白开水加糖 阅读(746) 评论(1) 推荐(0)