推荐系统与强化学习之bandit
摘要:目录: MAB的定义及意义 MAB算法 ε-Greedy 算法 UCB算法 汤普森抽样 一、MAB(Multi-Armed Bandit)的定义及意义 1、在推荐系统中,为了解决准确率和多样性的平衡问题就是经典的Exploit-Explore【利用与探索问题】。其中,Exploit表示的是利用当前用
阅读全文
因果推断综述
摘要:最近一段时间由于业务需要,对因果推断进行研究,针对精准营销、用户增长、广告、模型可解释性等领域都有比较广泛的应用。本文主要从原理+实践角度去讲解一下相关的因果推断的工具或方法。以下是主要内容: 一、双重差分法 二、Uplift Model 三、Causal ML 四、EconML 五、Dowhy 六
阅读全文
机器学习基础知识
摘要:本文主要介绍机器学习的基本知识,通过本文可以快速复习机器学习的主要内容。主要目录如下 一、特征工程 二、线性回归 三、逻辑回归 四、树模型 五、优化算法 六、激活函数 七、过拟合与欠拟合 一、特征工程 1、特征提取 (1)用户行为数据 (2)用户画像/标签 (3)Embedding:word2vec
阅读全文
LightGBM算法实践
摘要:LightGBM是Boosting算法的一种,与GBDT、XGBOOST是属于同一类算法,很多情况下可能会需要lightGBM与GBDT、xgb进行比较。这里花点时间简单比较一下: 一、GBDT GBDT是通过使用回归树来构建每一个弱分类器,(具体为啥使用回归树的原因是因为GBDT是由于每次迭代都是
阅读全文
DeepCTR专题:DeepFM论文学习和实现及感悟
摘要:论文地址:https://arxiv.org/pdf/1703.04247.pdf CTR预估我们知道在比较多的应用场景下都有使用。如:搜索排序、推荐系统等都有广泛的应用。并且CTR具有极其重要的 地位,特别相对广告推荐领域来说更加如此,竞价广告需要通过ctr给出相应的价格,并由此获得广告曝光的机会
阅读全文
DeepCTR专题:Neural Factorization Machines 论文学习和实现及感悟
摘要:papers地址:https://arxiv.org/pdf/1708.05027.pdf 借用论文开头,目前很多的算法任务都是需要使用category feature,而一般对于category feature处理的方式是经过one hot编码,然后我们有些情况下,category feature
阅读全文
推荐系统漫谈
摘要:如今,推荐系统已经在电商平台、信息流分发平台、广告平台等等,在处理大量用户信息的时,解决信息过载问题的重要手段。推荐系统是一个较大的系统,而我立身算法角度,谈一谈我对推荐系统中推荐算法的理解与看法。 推荐系统一般来讲主要分为两个部分:召回部分和排序部分。做了三年的算法后,给我的感觉,大部分的场景其实
阅读全文
sklearn中树模型可视化的方法
摘要:在机器学习的过程中,我们常常会用到树模型的方式来解决我们的问题。在工业界,我们不仅要针对某个问题利用机器学习的方法来解决问题,而且还需要能力解释其中的原理或原因。今天主要在这里记录一下树模型是怎么做可视化的方法: 1、首选需要用到几个包,需要导入一下。没有对应包的需要手动安装一下。 2、window
阅读全文
GBDT的数学原理
摘要:一、GBDT的原理 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛
阅读全文
机器学习常见面试题
摘要:1、L1范式和L2方式的区别 (1)L1范式是对应参数向量绝对值之和 (2)L1范式具有稀疏性 (3)L1范式可以用来作为特征选择,并且可解释性较强(这里的原理是在实际Loss function中都需要求最小值,根据L1的定义可知L1最小值只有0,故可以通过这种方式来进行特征选择) (4)L2范式是
阅读全文
推荐系统
摘要:推荐系统基础知识整理 基于规则的推荐系统 热门推荐 基于内容的推荐系统 利用用户的已知属性或者兴趣偏好,与物品内容的属性进行匹配,以此为用户推荐新的感兴趣的物品。 协同过滤 应用矩阵分解的原因是由于用户和物品构成的矩阵在实际的应用场景中,往往都是稀疏的或者存在缺失值的情况。这个时候很难补充或者很难准
阅读全文
交叉熵
摘要:1、交叉熵的定义: 在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下: 假设现在有一个样本集中两个概率分布p,q,其中p为真实
阅读全文
机器学习之回归
摘要:最近复习了一下机器学习的知识,在这里想总结一下,网上也有很多,大多都是不全或者是错误的。下面主要看我来简单总结一下回归分析的知识点。 1、内容概要 (1)线性回归 (2)逻辑回归(Logistic ) (3)最大似然估计 (4)梯度下降 2、线性回归 (1)我们以前初中学过线性函数y=a*x+b,都
阅读全文
CRoss IndustryStandard Process- for Data Mining 跨行业数据挖掘标准流程(下)
摘要:由于篇幅的问题,不得不将一篇文章分三个随笔来写。而本文承接前面两篇文章《跨行业数据挖掘标准流程(上)》、《跨行业数据挖掘标准流程(中)》。欲了解前两篇文章,请参考下面的链接: 《跨行业数据挖掘标准流程(上)》:http://www.cnblogs.com/ljy2013/p/5542961.html
阅读全文
CRoss IndustryStandard Process- for Data Mining 跨行业数据挖掘标准流程(中)
摘要:四、数据准备 在对数据进行充分理解的基础上,我们就要生成能够满足数据挖掘需要的数据宽表。在此阶段,我们需要集中精力在数据准备上,往往一个项目超过60%的时间都放在数据理解和数据准备上面。你以为剩下的40%是建模分析?其实10%才是建模分析,剩下的30%都是用来吐槽数据质量问题的。因为在上面已经简单讨
阅读全文
CRoss IndustryStandard Process- for Data Mining 跨行业数据挖掘标准流程(上)
摘要:一、说明 在实践当中,一个数据挖掘项目(或者说在咱们企业内部中一个分析研究主题),不但周期长,常常还会跨数据源,甚至跨部门协助进行,稍不留神就会陷入复杂的数据迷宫当中。为了能够在整个项目阶段能够保持研究重点,能够持续跟踪,一个有效的数据挖掘方法论(明确的流程模型)是非常有必要的。 商业应用的数据挖掘
阅读全文
分类器的评价指标
摘要:研究机器学习都会研究分类算法,当建立了一个分类算法的模型之后,模型的好坏是需要量化的,最重要的就是分类器的评价指标。那下面主要谈谈分类器的指标。(在这里,主要是介绍一下两类的分类器的评价指标) 下面我们可以看一下两类结果的分析: 1、accuracy(正确率) 它表示的预测结果正确比例。包括正例和负
阅读全文
Spark MLlib Data Type
摘要:MLlib 支持存放在单机上的本地向量和矩阵,也支持通过多个RDD实现的分布式矩阵。因此MLlib的数据类型主要分为两大类:一个是本地单机向量;另一个是分布式矩阵。下面分别介绍一下这两大类都有哪些类型: 1、Local vector(本地向量) (1)Vector 最基本的类型是Vector,该类型
阅读全文