博客园 - ljy2013
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=99941
2023-11-18T12:54:24Z
ljy2013
https://www.cnblogs.com/ljy2013/
feed.cnblogs.com
https://www.cnblogs.com/ljy2013/p/16867432.html
推荐系统与强化学习之bandit - ljy2013
目录: MAB的定义及意义 MAB算法 ε-Greedy 算法 UCB算法 汤普森抽样 一、MAB(Multi-Armed Bandit)的定义及意义 1、在推荐系统中,为了解决准确率和多样性的平衡问题就是经典的Exploit-Explore【利用与探索问题】。其中,Exploit表示的是利用当前用
2022-11-07T12:53:00Z
2022-11-07T12:53:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】目录: MAB的定义及意义 MAB算法 ε-Greedy 算法 UCB算法 汤普森抽样 一、MAB(Multi-Armed Bandit)的定义及意义 1、在推荐系统中,为了解决准确率和多样性的平衡问题就是经典的Exploit-Explore【利用与探索问题】。其中,Exploit表示的是利用当前用 <a href="https://www.cnblogs.com/ljy2013/p/16867432.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/15688574.html
因果推断综述 - ljy2013
最近一段时间由于业务需要,对因果推断进行研究,针对精准营销、用户增长、广告、模型可解释性等领域都有比较广泛的应用。本文主要从原理+实践角度去讲解一下相关的因果推断的工具或方法。以下是主要内容: 一、双重差分法 二、Uplift Model 三、Causal ML 四、EconML 五、Dowhy 六
2021-12-14T09:39:00Z
2021-12-14T09:39:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】最近一段时间由于业务需要,对因果推断进行研究,针对精准营销、用户增长、广告、模型可解释性等领域都有比较广泛的应用。本文主要从原理+实践角度去讲解一下相关的因果推断的工具或方法。以下是主要内容: 一、双重差分法 二、Uplift Model 三、Causal ML 四、EconML 五、Dowhy 六 <a href="https://www.cnblogs.com/ljy2013/p/15688574.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/15426511.html
多任务学习算法综述 - ljy2013
在做客户经营、精准营销、推荐等业务场景中往往会遇到数据稀疏,样本选择偏差的问题 一、《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》 简称:ESMM,pap
2021-10-26T11:26:00Z
2021-10-26T11:26:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】在做客户经营、精准营销、推荐等业务场景中往往会遇到数据稀疏,样本选择偏差的问题 一、《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》 简称:ESMM,pap <a href="https://www.cnblogs.com/ljy2013/p/15426511.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/14217323.html
linux常用命令 - ljy2013
1、awk命令 (1)两个文件的交集 awk 'NR==FNR{ a[$1]=a[$1]+1} NR>FNR{ if(a[$1]>=1 &&b[$1]<1){ print $1;b[$1]=b[$1]+1}}' a.txt b.txt (2)两个文件差集(b-a) awk 'NR==FNR{ a[$
2020-12-31T08:01:00Z
2020-12-31T08:01:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】1、awk命令 (1)两个文件的交集 awk 'NR==FNR{ a[$1]=a[$1]+1} NR>FNR{ if(a[$1]>=1 &&b[$1]<1){ print $1;b[$1]=b[$1]+1}}' a.txt b.txt (2)两个文件差集(b-a) awk 'NR==FNR{ a[$ <a href="https://www.cnblogs.com/ljy2013/p/14217323.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/13726148.html
基于Huggingface使用BERT进行文本分类的fine-tuning - ljy2013
随着BERT大火之后,很多BERT的变种,这里借用Huggingface工具来简单实现一个文本分类,从而进一步通过Huggingface来认识BERT的工程上的实现方法。 1、load data train_df = pd.read_csv('../data/train.tsv',delimiter
2020-10-07T01:36:00Z
2020-10-07T01:36:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】随着BERT大火之后,很多BERT的变种,这里借用Huggingface工具来简单实现一个文本分类,从而进一步通过Huggingface来认识BERT的工程上的实现方法。 1、load data train_df = pd.read_csv('../data/train.tsv',delimiter <a href="https://www.cnblogs.com/ljy2013/p/13726148.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/13609243.html
机器学习基础知识 - ljy2013
本文主要介绍机器学习的基本知识,通过本文可以快速复习机器学习的主要内容。主要目录如下 一、特征工程 二、线性回归 三、逻辑回归 四、树模型 五、优化算法 六、激活函数 七、过拟合与欠拟合 一、特征工程 1、特征提取 (1)用户行为数据 (2)用户画像/标签 (3)Embedding:word2vec
2020-09-17T12:41:00Z
2020-09-17T12:41:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】本文主要介绍机器学习的基本知识,通过本文可以快速复习机器学习的主要内容。主要目录如下 一、特征工程 二、线性回归 三、逻辑回归 四、树模型 五、优化算法 六、激活函数 七、过拟合与欠拟合 一、特征工程 1、特征提取 (1)用户行为数据 (2)用户画像/标签 (3)Embedding:word2vec <a href="https://www.cnblogs.com/ljy2013/p/13609243.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/13598615.html
基于Embedding深度学习算法综述 - ljy2013
其实Embedding技术发展相对比较早,随着深度学习框架的发展,如tensorflow,pytorch,Embedding技术显得越来越重要,特别在NLP和推荐系统领域应用最为广泛。下面主要讲讲我认识的Embedding技术。本文目录: 一、Embedding技术发展时间轴关键点 二、word2v
2020-09-11T14:08:00Z
2020-09-11T14:08:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】其实Embedding技术发展相对比较早,随着深度学习框架的发展,如tensorflow,pytorch,Embedding技术显得越来越重要,特别在NLP和推荐系统领域应用最为广泛。下面主要讲讲我认识的Embedding技术。本文目录: 一、Embedding技术发展时间轴关键点 二、word2v <a href="https://www.cnblogs.com/ljy2013/p/13598615.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/13361653.html
LightGBM算法实践 - ljy2013
LightGBM是Boosting算法的一种,与GBDT、XGBOOST是属于同一类算法,很多情况下可能会需要lightGBM与GBDT、xgb进行比较。这里花点时间简单比较一下: 一、GBDT GBDT是通过使用回归树来构建每一个弱分类器,(具体为啥使用回归树的原因是因为GBDT是由于每次迭代都是
2020-07-22T08:39:00Z
2020-07-22T08:39:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】LightGBM是Boosting算法的一种,与GBDT、XGBOOST是属于同一类算法,很多情况下可能会需要lightGBM与GBDT、xgb进行比较。这里花点时间简单比较一下: 一、GBDT GBDT是通过使用回归树来构建每一个弱分类器,(具体为啥使用回归树的原因是因为GBDT是由于每次迭代都是 <a href="https://www.cnblogs.com/ljy2013/p/13361653.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/10152203.html
DeepCTR专题:DeepFM论文学习和实现及感悟 - ljy2013
论文地址:https://arxiv.org/pdf/1703.04247.pdf CTR预估我们知道在比较多的应用场景下都有使用。如:搜索排序、推荐系统等都有广泛的应用。并且CTR具有极其重要的 地位,特别相对广告推荐领域来说更加如此,竞价广告需要通过ctr给出相应的价格,并由此获得广告曝光的机会
2018-12-20T12:44:00Z
2018-12-20T12:44:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】论文地址:https://arxiv.org/pdf/1703.04247.pdf CTR预估我们知道在比较多的应用场景下都有使用。如:搜索排序、推荐系统等都有广泛的应用。并且CTR具有极其重要的 地位,特别相对广告推荐领域来说更加如此,竞价广告需要通过ctr给出相应的价格,并由此获得广告曝光的机会 <a href="https://www.cnblogs.com/ljy2013/p/10152203.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/10150242.html
DeepCTR专题:Neural Factorization Machines 论文学习和实现及感悟 - ljy2013
papers地址:https://arxiv.org/pdf/1708.05027.pdf 借用论文开头,目前很多的算法任务都是需要使用category feature,而一般对于category feature处理的方式是经过one hot编码,然后我们有些情况下,category feature
2018-12-20T08:36:00Z
2018-12-20T08:36:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】papers地址:https://arxiv.org/pdf/1708.05027.pdf 借用论文开头,目前很多的算法任务都是需要使用category feature,而一般对于category feature处理的方式是经过one hot编码,然后我们有些情况下,category feature <a href="https://www.cnblogs.com/ljy2013/p/10150242.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/9892190.html
广告点击率预估中贝叶斯平滑 - ljy2013
广告点击率预估是一个非常经典的转化率预估问题,在互联网时代,广告作为互联网公司盈利的一种重要手段或方法,而广告又分为很多种(这部分的知识可以课后脑补一下),今天主要讲下在计算广告当中,竞价广告涉及到的ctr预估遇到的平滑问题。这里先解释一下竞价广告:简单讲来就是广告主需要在媒体投放平台投放广告,而媒
2018-11-01T12:15:00Z
2018-11-01T12:15:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】广告点击率预估是一个非常经典的转化率预估问题,在互联网时代,广告作为互联网公司盈利的一种重要手段或方法,而广告又分为很多种(这部分的知识可以课后脑补一下),今天主要讲下在计算广告当中,竞价广告涉及到的ctr预估遇到的平滑问题。这里先解释一下竞价广告:简单讲来就是广告主需要在媒体投放平台投放广告,而媒 <a href="https://www.cnblogs.com/ljy2013/p/9892190.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/9360354.html
推荐系统漫谈 - ljy2013
如今,推荐系统已经在电商平台、信息流分发平台、广告平台等等,在处理大量用户信息的时,解决信息过载问题的重要手段。推荐系统是一个较大的系统,而我立身算法角度,谈一谈我对推荐系统中推荐算法的理解与看法。 推荐系统一般来讲主要分为两个部分:召回部分和排序部分。做了三年的算法后,给我的感觉,大部分的场景其实
2018-07-24T07:38:00Z
2018-07-24T07:38:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】如今,推荐系统已经在电商平台、信息流分发平台、广告平台等等,在处理大量用户信息的时,解决信息过载问题的重要手段。推荐系统是一个较大的系统,而我立身算法角度,谈一谈我对推荐系统中推荐算法的理解与看法。 推荐系统一般来讲主要分为两个部分:召回部分和排序部分。做了三年的算法后,给我的感觉,大部分的场景其实 <a href="https://www.cnblogs.com/ljy2013/p/9360354.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/9358841.html
深度学习理论 - ljy2013
前段时间,跟部门同事分享了深度学习相关的一些理论基础,在此记录一下。仅供后续学习和复习。 目录 1、背景及现状 2、Embeding 3、DNN 4、CNN 5、RNN(LSTM) 6、应用(结合自身的应用案例) (1)情感分析/类目预测(文本分类) (2)NER/POS TAGGING (标注、命
2018-07-24T03:05:00Z
2018-07-24T03:05:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】前段时间,跟部门同事分享了深度学习相关的一些理论基础,在此记录一下。仅供后续学习和复习。 目录 1、背景及现状 2、Embeding 3、DNN 4、CNN 5、RNN(LSTM) 6、应用(结合自身的应用案例) (1)情感分析/类目预测(文本分类) (2)NER/POS TAGGING (标注、命 <a href="https://www.cnblogs.com/ljy2013/p/9358841.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/9322165.html
idea构建spark开发环境,并本地运行wordcount - ljy2013
1、首先现在idea,官网:https://www.jetbrains.com/idea/ 2、安装jdk1.8,scala2.11 3、下载idea后,需要在idea中安装scala的插件,安装的方式如下: File >settings >Plugins >输入scala(下图是我已经安装好了)
2018-07-17T02:52:00Z
2018-07-17T02:52:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】1、首先现在idea,官网:https://www.jetbrains.com/idea/ 2、安装jdk1.8,scala2.11 3、下载idea后,需要在idea中安装scala的插件,安装的方式如下: File >settings >Plugins >输入scala(下图是我已经安装好了) <a href="https://www.cnblogs.com/ljy2013/p/9322165.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/8351067.html
Window下,利用Anaconda2创建jupyter-notebook的python3环境方法 - ljy2013
随着深度学习的火热,越来越多的人去学习和了解这门技术。而做算法的同学为了能够更快,更高效的写出相关的深度学习算法出来,需要比较方便的开发环境。今天主要介绍一下在jupyter notebook中,新增python3的环境,从而可以使用tensorflow、keras等。具体步骤如下: 1、首先假设你
2018-01-25T06:24:00Z
2018-01-25T06:24:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】随着深度学习的火热,越来越多的人去学习和了解这门技术。而做算法的同学为了能够更快,更高效的写出相关的深度学习算法出来,需要比较方便的开发环境。今天主要介绍一下在jupyter notebook中,新增python3的环境,从而可以使用tensorflow、keras等。具体步骤如下: 1、首先假设你 <a href="https://www.cnblogs.com/ljy2013/p/8351067.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/7687965.html
sklearn中树模型可视化的方法 - ljy2013
在机器学习的过程中,我们常常会用到树模型的方式来解决我们的问题。在工业界,我们不仅要针对某个问题利用机器学习的方法来解决问题,而且还需要能力解释其中的原理或原因。今天主要在这里记录一下树模型是怎么做可视化的方法: 1、首选需要用到几个包,需要导入一下。没有对应包的需要手动安装一下。 2、window
2017-10-18T09:47:00Z
2017-10-18T09:47:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】在机器学习的过程中,我们常常会用到树模型的方式来解决我们的问题。在工业界,我们不仅要针对某个问题利用机器学习的方法来解决问题,而且还需要能力解释其中的原理或原因。今天主要在这里记录一下树模型是怎么做可视化的方法: 1、首选需要用到几个包,需要导入一下。没有对应包的需要手动安装一下。 2、window <a href="https://www.cnblogs.com/ljy2013/p/7687965.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/6972426.html
GBDT的数学原理 - ljy2013
一、GBDT的原理 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛
2017-06-09T08:08:00Z
2017-06-09T08:08:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】一、GBDT的原理 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛 <a href="https://www.cnblogs.com/ljy2013/p/6972426.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/6890408.html
机器学习常见面试题 - ljy2013
1、L1范式和L2方式的区别 (1)L1范式是对应参数向量绝对值之和 (2)L1范式具有稀疏性 (3)L1范式可以用来作为特征选择,并且可解释性较强(这里的原理是在实际Loss function中都需要求最小值,根据L1的定义可知L1最小值只有0,故可以通过这种方式来进行特征选择) (4)L2范式是
2017-05-22T09:17:00Z
2017-05-22T09:17:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】1、L1范式和L2方式的区别 (1)L1范式是对应参数向量绝对值之和 (2)L1范式具有稀疏性 (3)L1范式可以用来作为特征选择,并且可解释性较强(这里的原理是在实际Loss function中都需要求最小值,根据L1的定义可知L1最小值只有0,故可以通过这种方式来进行特征选择) (4)L2范式是 <a href="https://www.cnblogs.com/ljy2013/p/6890408.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/6889881.html
推荐系统 - ljy2013
推荐系统基础知识整理 基于规则的推荐系统 热门推荐 基于内容的推荐系统 利用用户的已知属性或者兴趣偏好,与物品内容的属性进行匹配,以此为用户推荐新的感兴趣的物品。 协同过滤 应用矩阵分解的原因是由于用户和物品构成的矩阵在实际的应用场景中,往往都是稀疏的或者存在缺失值的情况。这个时候很难补充或者很难准
2017-05-22T07:55:00Z
2017-05-22T07:55:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】推荐系统基础知识整理 基于规则的推荐系统 热门推荐 基于内容的推荐系统 利用用户的已知属性或者兴趣偏好,与物品内容的属性进行匹配,以此为用户推荐新的感兴趣的物品。 协同过滤 应用矩阵分解的原因是由于用户和物品构成的矩阵在实际的应用场景中,往往都是稀疏的或者存在缺失值的情况。这个时候很难补充或者很难准 <a href="https://www.cnblogs.com/ljy2013/p/6889881.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/ljy2013/p/6533710.html
Mac上配置maven+eclipse+spark开发环境 - ljy2013
1、安装jdk 2、下载scala-ide。官网:http://scala-ide.org 3、安装maven 4、在eclipse中,配置maven的安装了路径。偏好设置 >maven >installpath 5、修改maven的镜像文件,即setting.txt中的mirror。具体修改为如下
2017-03-10T16:05:00Z
2017-03-10T16:05:00Z
ljy2013
https://www.cnblogs.com/ljy2013/
【摘要】1、安装jdk 2、下载scala-ide。官网:http://scala-ide.org 3、安装maven 4、在eclipse中,配置maven的安装了路径。偏好设置 >maven >installpath 5、修改maven的镜像文件,即setting.txt中的mirror。具体修改为如下 <a href="https://www.cnblogs.com/ljy2013/p/6533710.html" target="_blank">阅读全文</a>