随笔分类 -  算法

摘要:这个选择偏差(selection bias)主要是以信息流推荐为例来说的。在这里说的是由于展示位置等因素,虽然这个内容用户不一定很喜欢,但是还是点击了。去除选择偏差,就是考虑用户的点击互动行为多大程度是受展示位置的影响。一般来说信息流场景下,第一条的点击率,互动率是要高于之后的位置。统计发现,前三、 阅读全文
posted @ 2020-04-15 17:02 Earendil 阅读(2266) 评论(0) 推荐(0)
摘要:原文地址: https://plushunter.github.io/2018/02/26/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%B3%BB%E5%88%97%EF%BC%887%EF%BC%89%EF%BC%9AText 阅读全文
posted @ 2019-06-12 11:47 Earendil 阅读(4589) 评论(0) 推荐(1)
摘要:用户的关注关系本身就是一个图结构,要从用户关注关系生成用户的embedding表示,其实就是做graph的emebding表示。 deepwalk+word2vec 比较简单,效果也还可以。这种方法再此不再介绍。 接下里记下我对line算法的一些理解。 先说line算法要解决的问题。 1、需要能够表 阅读全文
posted @ 2019-05-06 14:25 Earendil 阅读(5327) 评论(2) 推荐(1)
摘要:看了网上的一些用tf实现的FM,很多都没有考虑FM实际使用中数据样本稀疏的问题。 我在实现的时候使用 embedding_lookup_sparse来解决这个问题。 对于二阶部分,由于embedding_lookup_sparse没法计算 和的平方 和 平方的和,我参考embedding_looku 阅读全文
posted @ 2019-04-26 10:44 Earendil 阅读(2329) 评论(1) 推荐(1)
摘要:Angel是腾讯开源的一个分布式机器学习框架。是一个PS模式的分布式机器学习框架。 https://github.com/Angel-ML/angel 这是github地址。 我了解的分布式机器学习概述: 对于分布式机器学习,有些简单的了解,听过一些概念。最近正在看《分布式机器学习 算法、理论与实践 阅读全文
posted @ 2019-03-08 15:42 Earendil 阅读(1242) 评论(0) 推荐(0)
摘要:参考网上博客阅读了bert的代码,记个笔记。代码是 bert_modeling.py 参考的博客地址: https://blog.csdn.net/weixin_39470744/article/details/84401339 https://www.jianshu.com/p/2a3872148 阅读全文
posted @ 2019-03-03 14:44 Earendil 阅读(1717) 评论(1) 推荐(1)
摘要:首先是Bert的论文和 attention is all you need的论文 然后是:将nlp预训练 迁移学习的发展从word2vec 到elmo bert https://mp.weixin.qq.com/s/Rd3-ypRYiJObi-e2JDeOjQ https://mp.weixin.q 阅读全文
posted @ 2019-03-01 15:24 Earendil 阅读(285) 评论(0) 推荐(0)
摘要:问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比较小时,比如K级,此算法可以在接受的时间范围内完成,但是如果N变大时,比B级,甚至P级,那么需要的时间是不能够被接受的。比如N= 1B = 1 阅读全文
posted @ 2018-11-28 20:20 Earendil 阅读(519) 评论(1) 推荐(2)
摘要:保序回归 1 保序回归 保序回归解决了下面的问题:给定包含n个数据点的序列 y_1,y_2,...,y_n , 怎样通过一个单调的序列 beta_1,beta_2,...,beta_n 来归纳这个问题。形式上,这个问题就是为了找到 大部分时候,我们会在括号前加上权重w_i。解决这个问题的一个方法就是 阅读全文
posted @ 2018-11-22 14:10 Earendil 阅读(5652) 评论(0) 推荐(0)
摘要:通常我们在做CTR预估的时候,预估值会与真是的CTR有偏差,这种偏差可能来自于负采样,可能是因为模型的问题。 CTR预估值与真实值有偏差,并不会影响AUC指标和排序,但是实际使用中往往需要CTR的预估值不仅仅是做到有序,即正样本排在负样本前面,而且需要保证有一定的区分度。这涉及到一个概念保序和保距。 阅读全文
posted @ 2018-09-19 16:46 Earendil 阅读(2675) 评论(0) 推荐(1)
摘要:import tensorflow as tfimport numpy as npfrom sklearn import metricsfrom sklearn.datasets import load_svmlight_filefrom sklearn.utils import shuffle# 阅读全文
posted @ 2018-08-13 17:14 Earendil 阅读(1391) 评论(0) 推荐(1)
摘要:https://tracholar.github.io/machine-learning/2018/01/26/auc.html 我觉得作者写的很不错 阅读全文
posted @ 2018-08-01 11:25 Earendil 阅读(215) 评论(0) 推荐(0)
摘要:原文地址:http://www.hackcv.com/index.php/archives/104/?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io 卷积神经网络的四个基本操作: 1、卷积 2、非线性处理(Relu) 3、赤化或 阅读全文
posted @ 2018-07-07 15:22 Earendil 阅读(5534) 评论(1) 推荐(0)
摘要:在神经网络中经常会用到dropout,大多对于其解释就是dropout可以起到正则化的作用。 一下是我总结的对于dropout的理解。花书上的解释主要还是从模型融合的角度来解释,末尾那一段从生物学角度的解释是在是看不明白。 从模型融合的角度来解释dropout: Dropout提供了正则化一一大类模 阅读全文
posted @ 2018-07-05 11:47 Earendil 阅读(930) 评论(0) 推荐(0)
摘要:来自知乎: 作者:知乎用户链接:https://www.zhihu.com/question/31989952/answer/54184582来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 谢邀! 以下内容来源于跟几位大牛交流的结果并加入了一定自己的理解。 在工业界, 阅读全文
posted @ 2018-06-25 19:23 Earendil 阅读(280) 评论(0) 推荐(0)
摘要:特征分解:将矩阵分 解成一组特征向量和特征值。 方阵 A 的 特征向量(eigenvector)是指与 A 相乘后相当于对该向量进行缩放 的非零向量 v 标量 λ 被称为这个特征向量对应的 特征值(eigenvalue)。(类似地,我们也可以 定义 左特征向量(left eigenvector)v⊤ 阅读全文
posted @ 2018-06-12 21:39 Earendil 阅读(419) 评论(0) 推荐(0)
摘要:SGD:现在的SGD一般都指mini-batch gradient descent 最小批量梯度下降 缺点:(正因为有这些缺点才让这么多大神发展出了后续的各种算法) 选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征,有时我们 阅读全文
posted @ 2018-04-23 09:11 Earendil 阅读(773) 评论(0) 推荐(0)
摘要:ALS算法描述: 1、ALS算法用来补全用户评分矩阵。由于用户评分矩阵比较稀疏,将用户评分矩阵进行分解,变成V和U的乘积。通过求得V和U两个小的矩阵来补全用户评分矩阵。 2、ALS算法使用交替最小二乘法来进行求解。 3、ALS分为显示反馈和隐式反馈两种。显示反馈是指用户有明确的评分。对于商品推荐来说 阅读全文
posted @ 2018-04-18 10:35 Earendil 阅读(2132) 评论(0) 推荐(0)
摘要:Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。 Bagging: 先介绍Bagging方法: Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping 阅读全文
posted @ 2018-04-18 09:22 Earendil 阅读(89482) 评论(1) 推荐(4)
摘要:ROC曲线: roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 ROC曲线的横轴: 负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specifi 阅读全文
posted @ 2018-04-17 15:49 Earendil 阅读(1144) 评论(0) 推荐(0)