rongyux

2017年12月12日

DIN(Deep Interest Network of CTR) [Paper笔记]

摘要：背景经典MLP不能充分利用结构化数据，本文提出的DIN可以(1)使用兴趣分布代表用户多样化的兴趣（不同用户对不同商品有兴趣）(2)与attention机制一样，根据ad局部激活用户兴趣相关的兴趣（用户有很多兴趣，最后导致购买的是小部分兴趣，attention机制就是保留并激活这部分兴趣）。评价指阅读全文

posted @ 2017-12-12 09:35 rongyux 阅读(11403) 评论(0) 推荐(0)

2017年12月10日

MLR算法[Paper笔记]

摘要：介绍 MLR算法是alibaba在2012年提出并使用的广告点击率预估模型，2017年发表出来。如下图，LR不能拟合非线性数据，MLR可以拟合非线性数据，因为划分-训练模式。讨论，非线性拟合能力：数据划分规则如下公式，特征分片数m=1时，退化为LR；上图MLR中m=4。m越大，模型的拟合能力越阅读全文

posted @ 2017-12-10 22:22 rongyux 阅读(13289) 评论(0) 推荐(0)

2017年12月6日

OCPC(Optimized Cost per Click)[Paper笔记]

摘要：背景在线广告中，广告按照CPM排序，排在前面的广告竞争有限广告位（截断）。其中，CPM=bid*pctr。注GSP二价计费的，按照下一位bid计费。适当调整bid，可以提高竞价的排名，从而获得展现的机会。OCPC就是调整广告的出价，对优质流量出高价，劣质流量出低价，提高广告主的ROI。其中，ROI 阅读全文

posted @ 2017-12-06 12:59 rongyux 阅读(3619) 评论(0) 推荐(0)

2017年10月27日

实现一个单隐层神经网络

摘要：仅仅记录神经网络编程主线。一引用工具包二读入数据集输入函数实现在最下面附录 lanar是二分类数据集，可视化如下图，外形像花的一样的非线性数据集。三神经网络结构对于输入样本x，前向传播计算如下公式：损失函数J：输入样本X：[n_x,m]; 假设输入m个样本，每个样本k维，输入神经阅读全文

posted @ 2017-10-27 11:02 rongyux 阅读(4337) 评论(0) 推荐(0)

2017年8月6日

dnn文本分类

摘要：简介文本分类任务根据给定一条文本的内容，判断该文本所属的类别，是自然语言处理领域的一项重要的基础任务。具体的，本任务是对文本quey进行分类，任务流程如下：运行训练： sh ＋x train.sh 预测： python infer.py 输入／输出输入样本： label text（分词后）阅读全文

posted @ 2017-08-06 18:33 rongyux 阅读(2068) 评论(0) 推荐(0)

2017年7月26日

word2vec－词向量embeding实现

摘要：一 word2vec现有三种模型框架： 1 N－gram模型（http://blog.csdn.net/mytestmy/article/details/26961315） eg求大家喜欢吃（苹果）的概率（1）计算后验概率： p(大家)表示“大家”这个词在语料库里面出现的概率； p(喜欢|大阅读全文

posted @ 2017-07-26 17:15 rongyux 阅读(3863) 评论(0) 推荐(0)

2017年7月2日

点击率模型AUC

摘要：一背景首先举个例子：正样本（90）负样本（10）模型1预测正（90）正（10）模型2预测正（70）负（20）正（5）负（5）结论：模型1准确率90%；模型2 准确率75% 考虑对正负样本对预测能力，显然模型2要比模型1好，但对于这种正负样本分布不平衡对数据，准确率不能衡量分阅读全文

posted @ 2017-07-02 00:43 rongyux 阅读(1891) 评论(0) 推荐(0)

2017年5月16日

DNN个性化推荐模型

摘要： 1 推荐技术 1）协同过滤：（1）基于user的协同过滤：根据历史日志中用户年龄，性别，行为，偏好等特征计算user之间的相似度，根据相似user对item的评分推荐item。缺点：新用户冷启动问题和数据稀疏不能找到置信的相似用户进行推荐。（2）基于item的协同过滤：根据item维度的特征计算阅读全文

posted @ 2017-05-16 23:07 rongyux 阅读(13530) 评论(0) 推荐(0)

2017年5月6日

GBDT与LR融合提升广告点击率预估模型

摘要： 1GBDT和LR融合 LR模型是线性的，处理能力有限，所以要想处理大规模问题，需要大量人力进行特征工程，组合相似的特征，例如user和Ad维度的特征进行组合。 GDBT天然适合做特征提取，因为GBDT由回归树组成所以，每棵回归树就是天然的有区分性的特征及组合特征，然后给LR模型训练，提高点击率预估阅读全文

posted @ 2017-05-06 22:29 rongyux 阅读(7259) 评论(0) 推荐(1)

2017年4月18日

讨论LSTM和RNN梯度消失问题

摘要： 1RNN为什么会有梯度消失问题（1）沿时间反向方向：t-n时刻梯度=t时刻梯度* π（W*激活函数的导数）（2）沿隐层方向方向：l-n层的梯度=l层的梯度*π（U*激活函数的导数）所以激活函数的导数和W连乘可以造成梯度消失和爆炸；由函数曲线看sigmoid的导数最大是1/4； 2LSTM可以避阅读全文

posted @ 2017-04-18 18:35 rongyux 阅读(7645) 评论(0) 推荐(0)

公告