随笔分类 - 深度学习
1
摘要:https://zhuanlan.zhihu.com/p/44216830 一、处理回归问题: mean_squared_error(MSE) mean_absolute_error (MAE) 二、处理分类问题 先 sigmoid 再求交叉熵 先 softmax 再求交叉熵 weighted_cr
阅读全文
摘要:https://www.cnblogs.com/peghoty/p/3857839.html 推荐度max,word2vec 中的数学原理详解。 https://cloud.tencent.com/developer/article/1010918 Tensorflow实现word2vec http
阅读全文
摘要:参考 https://tech.meituan.com/2018/06/21/deep-learning-doc.html 背景 我最近在做query suggestion,根据前缀去推荐问题。 文本匹配在很多信息检索相关场景都用到,比如 1、搜索:Query-Doc 2、广告:Query-Ad 3
阅读全文
摘要:L2R将机器学习的技术很好的应用到了排序中。 https://jimmy-walker.gitbooks.io/rank/L2R.html github https://github.com/jiangnanboy/learning_to_rank lightgbm的训练速度非常快,快的起飞。 先看
阅读全文
摘要:FFM的全称是Field-aware FM,直观翻译过来,就是能够意识到特征域(Field)的存在的FM模型。那么FFM模型是有第六感吗?它怎么能够感知到特征域的存在呢? 先来看一个例子。 组合特征的重要性:如果在体育网站ESPN上发布Nike的广告,那么100次展现,80次会被点击,而20次不会被
阅读全文
摘要:https://flashgene.com/archives/91357.html 知识赋能的智能推荐将成为未来推荐的主流。智能推荐表现在多个方面,包括 场景化推荐、任务型推荐、跨领域推荐、知识型推荐。 1)场景化推荐 比如用户在淘宝上搜“沙滩裤”、“沙滩鞋”,可以推测这个用户很有可能要去沙滩度假。
阅读全文
摘要:DataFunTalk公众号文章学习。 1.简介 主要面向C端求职者和B端企业 推荐内容:职位推荐、企业推荐、标签推荐、简历推荐 推荐场景: app首页——职位聚合、职位feed流; 类目——用户点击某个类目,进行相关job推荐; 相似推荐——用户点击某个具体职位后,展示相似职位。 存在典型问题:
阅读全文
摘要:上图有两棵树,左树有三个叶子节点,右树有两个叶子节点,最终的特征即为五维的向量。 对于输入x,假设他落在左树第一个节点,编码[1,0,0],落在右树第二个节点则编码[0,1],所以整体的编码为[1,0,0,0,1],这类编码作为特征,输入到LR中进行分类。 在CTR预估问题的发展初期,使用最多的方法
阅读全文
摘要:数据层面: 过抽样 直接复制,即不断复制类别样本数少的类别样本。 插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。 欠抽样: 直接删除,随机减少多数类样本的数量。 算法层面: Weighted loss function,一个处理非
阅读全文
摘要:一般在神经网络中, softmax可以作为分类任务的输出层。 输出n个类别选取的概率,并且概率和为1。 i代表的是第i个神经元的输出,zi是下面 loss function表示的是真实值与网络的估计值的误差。交叉熵的函数是这样的 yi表示真实的分类结果。 求导。首先,我们要明确一下我们要求什么,
阅读全文
摘要:我们平时使用tf.Saver()保存的模型是checkpoint格式的, # construct graph! ... # add save/restore ops saver = tf.train.Saver() ... # save after training save_path = save
阅读全文
摘要:反向传播的一个手算例子:https://blog.csdn.net/weixin_38347387/article/details/82936585 这里主要是靠这个文章学的pytorch:https://www.jianshu.com/p/52684285e335 我们首先使用 numpy 来实现
阅读全文
摘要:batch size的设置经验: batch_size=1的极端,每次修正方向取决于单个样本,横冲直撞难以收敛。合理范围增大batch size,提高内存利用率,跑完一次epoch所需迭代次数减少。但是不能盲目增大,因为会内存溢出,想要达到相同精度训练时间变长,batchsize增加到一定程度,其确
阅读全文
摘要:https://www.cnblogs.com/zhaopAC/p/10240968.html 基于梯度的神经网络(eg back propagation)的梯度消失 This is not a fundamental problem with neural networks - it's a pr
阅读全文
摘要:李宏毅的深度学习课程。 RNN一个应用是填槽,slot filling是需要存储记忆的。 为什么要使用RNN 前馈神经网络 常见的前馈神经网络有单层前馈神经网络、多层前馈神经网络(DNN、多层感知器)、CNN(点名CNN这个垃圾)等。 前馈神经网络的缺陷 前馈神经网络前一个输入与后一个输入之间没有任
阅读全文
摘要:《SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS》 http://arxiv.org/abs/1511.06939 GRU是什么 在LSTM中引入了三个门函数:输入门、遗忘门和输出门 。GRU模型中只有两个门:更新门和重置门。
阅读全文
摘要:CNN其实就是把一些neuron拿走。为什么?3个property。 property 1 a neuron does not have to see the whole image to discover the pattern. 比如一张鸟的图片,第一layer是去侦测有没有鸟嘴存在(beak
阅读全文
摘要:背景/来源/参考: 来自知乎王喆机器学习笔记《回顾Facebook经典CTR预估模型》,和推荐系统的局部更新(相反于全量更新)有关,《如何增强推荐系统模型更新的「实时性」?》 Facebook在2014发表的“Practical Lessons from Predicting Clicks on A
阅读全文
摘要:RNN CNN 人老珠黄。全面拥抱Transformer。 对于自然语言处理领域来说,2018 年无疑是个收获颇丰的年头, 就是Bert 模型了。 一个是 Bert 这种两阶段的模式(预训练 + Finetuning) 必将成为 NLP 领域研究和工业应用的流行方法; 第二个是从 NLP 领域的特征
阅读全文
摘要:RNN、CNN、Transformer
阅读全文
1

浙公网安备 33010602011771号