算法 - 随笔分类 - Earendil

如何消除推荐系统中的选择偏差

摘要：这个选择偏差(selection bias)主要是以信息流推荐为例来说的。在这里说的是由于展示位置等因素，虽然这个内容用户不一定很喜欢，但是还是点击了。去除选择偏差，就是考虑用户的点击互动行为多大程度是受展示位置的影响。一般来说信息流场景下，第一条的点击率，互动率是要高于之后的位置。统计发现，前三、阅读全文

posted @ 2020-04-15 17:02 Earendil 阅读(2266) 评论(0) 推荐(0)

[转] TextCNN调参技巧

摘要：原文地址： https://plushunter.github.io/2018/02/26/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%B3%BB%E5%88%97%EF%BC%887%EF%BC%89%EF%BC%9AText 阅读全文

posted @ 2019-06-12 11:47 Earendil 阅读(4589) 评论(0) 推荐(1)

Line 算法与deepwalk的对比和个人理解

摘要：用户的关注关系本身就是一个图结构，要从用户关注关系生成用户的embedding表示，其实就是做graph的emebding表示。 deepwalk+word2vec 比较简单，效果也还可以。这种方法再此不再介绍。接下里记下我对line算法的一些理解。先说line算法要解决的问题。 1、需要能够表阅读全文

posted @ 2019-05-06 14:25 Earendil 阅读(5327) 评论(2) 推荐(1)

TensorFlow实现FM

摘要：看了网上的一些用tf实现的FM，很多都没有考虑FM实际使用中数据样本稀疏的问题。我在实现的时候使用 embedding_lookup_sparse来解决这个问题。对于二阶部分，由于embedding_lookup_sparse没法计算和的平方和平方的和，我参考embedding_looku 阅读全文

posted @ 2019-04-26 10:44 Earendil 阅读(2329) 评论(1) 推荐(1)

Angel 实现FFM 一、对于Angel 和分布式机器学习的简单了解

摘要：Angel是腾讯开源的一个分布式机器学习框架。是一个PS模式的分布式机器学习框架。 https://github.com/Angel-ML/angel 这是github地址。我了解的分布式机器学习概述：对于分布式机器学习，有些简单的了解，听过一些概念。最近正在看《分布式机器学习算法、理论与实践阅读全文

posted @ 2019-03-08 15:42 Earendil 阅读(1242) 评论(0) 推荐(0)

google tensorflow bert代码分析

摘要：参考网上博客阅读了bert的代码，记个笔记。代码是 bert_modeling.py 参考的博客地址： https://blog.csdn.net/weixin_39470744/article/details/84401339 https://www.jianshu.com/p/2a3872148 阅读全文

posted @ 2019-03-03 14:44 Earendil 阅读(1717) 评论(1) 推荐(1)

Bert学习资料

摘要：首先是Bert的论文和 attention is all you need的论文然后是：将nlp预训练迁移学习的发展从word2vec 到elmo bert https://mp.weixin.qq.com/s/Rd3-ypRYiJObi-e2JDeOjQ https://mp.weixin.q 阅读全文

posted @ 2019-03-01 15:24 Earendil 阅读(285) 评论(0) 推荐(0)

利用Minhash和LSH寻找相似的集合（转）

摘要：问题背景给出N个集合，找到相似的集合对，如何实现呢？直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合，但是时间复杂度是O(n2)。当N比较小时，比如K级，此算法可以在接受的时间范围内完成，但是如果N变大时，比B级，甚至P级，那么需要的时间是不能够被接受的。比如N= 1B = 1 阅读全文

posted @ 2018-11-28 20:20 Earendil 阅读(519) 评论(1) 推荐(2)

保序回归算法步骤

摘要：保序回归 1 保序回归保序回归解决了下面的问题：给定包含n个数据点的序列 y_1,y_2,...,y_n , 怎样通过一个单调的序列 beta_1,beta_2,...,beta_n 来归纳这个问题。形式上，这个问题就是为了找到大部分时候，我们会在括号前加上权重w_i。解决这个问题的一个方法就是阅读全文

posted @ 2018-11-22 14:10 Earendil 阅读(5652) 评论(0) 推荐(0)

CTR校准

摘要：通常我们在做CTR预估的时候，预估值会与真是的CTR有偏差，这种偏差可能来自于负采样，可能是因为模型的问题。 CTR预估值与真实值有偏差，并不会影响AUC指标和排序，但是实际使用中往往需要CTR的预估值不仅仅是做到有序，即正样本排在负样本前面，而且需要保证有一定的区分度。这涉及到一个概念保序和保距。阅读全文

posted @ 2018-09-19 16:46 Earendil 阅读(2675) 评论(0) 推荐(1)

FTRL 使用tensorflow的实现

摘要：import tensorflow as tfimport numpy as npfrom sklearn import metricsfrom sklearn.datasets import load_svmlight_filefrom sklearn.utils import shuffle# 阅读全文

posted @ 2018-08-13 17:14 Earendil 阅读(1391) 评论(0) 推荐(1)

深入理解AUC

摘要：https://tracholar.github.io/machine-learning/2018/01/26/auc.html 我觉得作者写的很不错阅读全文

posted @ 2018-08-01 11:25 Earendil 阅读(215) 评论(0) 推荐(0)

什么是卷积神经网络？为什么它们很重要？

摘要：原文地址：http://www.hackcv.com/index.php/archives/104/?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io 卷积神经网络的四个基本操作: 1、卷积 2、非线性处理（Relu） 3、赤化或阅读全文

posted @ 2018-07-07 15:22 Earendil 阅读(5534) 评论(1) 推荐(0)

dropout 为何会有正则化作用

摘要：在神经网络中经常会用到dropout，大多对于其解释就是dropout可以起到正则化的作用。一下是我总结的对于dropout的理解。花书上的解释主要还是从模型融合的角度来解释，末尾那一段从生物学角度的解释是在是看不明白。从模型融合的角度来解释dropout: Dropout提供了正则化一一大类模阅读全文

posted @ 2018-07-05 11:47 Earendil 阅读(930) 评论(0) 推荐(0)

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？

摘要：来自知乎：作者：知乎用户链接：https://www.zhihu.com/question/31989952/answer/54184582来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。谢邀！以下内容来源于跟几位大牛交流的结果并加入了一定自己的理解。在工业界，阅读全文

posted @ 2018-06-25 19:23 Earendil 阅读(280) 评论(0) 推荐(0)

特征分解奇异值分解

摘要：特征分解：将矩阵分解成一组特征向量和特征值。方阵 A 的特征向量(eigenvector)是指与 A 相乘后相当于对该向量进行缩放的非零向量 v 标量 λ 被称为这个特征向量对应的特征值(eigenvalue)。(类似地，我们也可以定义左特征向量(left eigenvector)v⊤ 阅读全文

posted @ 2018-06-12 21:39 Earendil 阅读(419) 评论(0) 推荐(0)

深度学习的优化方法总结

摘要：SGD:现在的SGD一般都指mini-batch gradient descent 最小批量梯度下降缺点：（正因为有这些缺点才让这么多大神发展出了后续的各种算法）选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征，有时我们阅读全文

posted @ 2018-04-23 09:11 Earendil 阅读(773) 评论(0) 推荐(0)

ALS算法（面试准备）

摘要：ALS算法描述： 1、ALS算法用来补全用户评分矩阵。由于用户评分矩阵比较稀疏，将用户评分矩阵进行分解，变成V和U的乘积。通过求得V和U两个小的矩阵来补全用户评分矩阵。 2、ALS算法使用交替最小二乘法来进行求解。 3、ALS分为显示反馈和隐式反馈两种。显示反馈是指用户有明确的评分。对于商品推荐来说阅读全文

posted @ 2018-04-18 10:35 Earendil 阅读(2132) 评论(0) 推荐(0)

Bagging和Boosting的区别（面试准备）

摘要：Baggging 和Boosting都是模型融合的方法，可以将弱分类器融合之后形成一个强分类器，而且融合之后的效果会比最好的弱分类器更好。 Bagging: 先介绍Bagging方法： Bagging即套袋法，其算法过程如下：从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping 阅读全文

posted @ 2018-04-18 09:22 Earendil 阅读(89482) 评论(1) 推荐(4)

ROC 曲线，以及AUC计算方式

摘要：ROC曲线： roc曲线：接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 ROC曲线的横轴：负正类率(false postive rate FPR)特异度，划分实例中所有负例占所有负例的比例；(1-Specifi 阅读全文

posted @ 2018-04-17 15:49 Earendil 阅读(1144) 评论(0) 推荐(0)

随笔分类 - 算法

公告