摘要: torch-rechub安装 最新版(推荐) git clone https://github.com/datawhalechina/torch-rechub.git cd torch-rechub python setup.py install 安装过程中遇到问题:python setup.py 阅读全文
posted @ 2022-06-15 00:29 liujy1 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 1. DeepFM原理 2. 模型开发技巧 3. 模型文件与运维部署 Postman介绍 4. 服务端开发 post接口和get接口 数据转换成Jason 结果预测 阅读全文
posted @ 2022-03-17 00:14 liujy1 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 1. LGB模型原理 2. 实时特征开发 Storm和Flink 3. 接口实现方式 3.1 PMML形式,Python和Java 3.2 Flask形式,Flask和Java 阅读全文
posted @ 2022-03-17 00:11 liujy1 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 1. LR介绍 逻辑回归(logistics regression)作为广义线性模型的一种,它的假设是因变量y服从伯努利分布。那么在点击率预估这个问题上,“点击”这个事件是否发生就是模型的因变量y。而用户是否点击广告这个问题是一个经典的掷偏心硬币(二分类)问题,因此CTR模型的因变量显然应该服从伯努 阅读全文
posted @ 2022-03-17 00:09 liujy1 阅读(1607) 评论(0) 推荐(0) 编辑
摘要: 开一个专题,努力将这9年的推荐算法经验记录下来。 作为一名非一线大厂的算法工程师,通常要完成几乎全栈的算法开发工作。 目前我的工作内容包含了:提取训练样本、特征构造、搭建模型、线上服务开发、线上特征管理和开发、模型/AB分流/算法使用场景管理、特征/算法/场景线上验证等。 提取训练样本和特征构造都属 阅读全文
posted @ 2022-03-17 00:02 liujy1 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 1、特征工程 1.1 特征归一化 线性函数归一化:\(X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}\) 零均值归一化:\(z=\frac{x-\mu}{\sigma}\) 归一化对收敛速度的影响 ![image-20210712235858167](/User 阅读全文
posted @ 2021-11-10 14:08 liujy1 阅读(175) 评论(0) 推荐(0) 编辑
摘要: # DataSet ''' Created on Aug 8, 2016 Processing datasets. @author: Xiangnan He (xiangnanhe@gmail.com) ''' import scipy.sparse as sp import numpy as np 阅读全文
posted @ 2021-11-09 11:59 liujy1 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 一、熵相关内容 本章主要介绍几个关于熵的几个概念性定义,包括自信息、熵(信息熵)、联合熵、条件熵、左右熵、相对熵(KL散度)、交叉熵和softmax、信息增益(互信息)和信息增益率、条件互信息等。接下来介绍一种最大熵算法 1.1 熵的几个相关定义 1.1.1 自信息和熵(单个变量) 自信息 self 阅读全文
posted @ 2021-07-26 08:19 liujy1 阅读(1912) 评论(0) 推荐(0) 编辑
摘要: 一、牛顿法与拟牛顿法 拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一,于20世纪50年代提出。DFP、BFGS和L-BFGS算法都是重要的拟牛顿法。考虑如下无约束的极小化问题$\underset f(x)\(,其中\){\tt x}=(x_1,x_2,... 阅读全文
posted @ 2021-07-22 23:15 liujy1 阅读(1430) 评论(0) 推荐(2) 编辑
摘要: 1、FM 前面一章介绍了线性模型和逻辑回归模型,在这些模型中,默认特征之间是不存在交互关系的;对于离散特征(如用户所在城市、商品品牌等),一般是进行one-hot处理,从而会产生大量的稀疏数据。Factorization Machines(FM)模型即是用来解决数据稀疏和特征交叉使用问题的。 1.1 阅读全文
posted @ 2020-05-08 13:58 liujy1 阅读(494) 评论(0) 推荐(0) 编辑