07 2021 档案
摘要:Q:为什么输入Logistics回归的变量不能有相关性? A:如果不考虑线性相关直接使用线性模型,设想建立一个具有两变量X1和X2的线性模型,假设真实模型是Y=X1+X2。然而,如果X1和X2线性相关,那么Y=2*X1, Y=3*X1-X2或Y=100*X1-98*X2都一样好,这一问题可能并无不妥
阅读全文
摘要:2021/8/6 分析常用方法论: 相关性分析法 定性->定量识别关键行为, 衡量相关关系、因果关系,判定影响阈值 漏斗分析法 梳理转化流程,找到转化瓶颈 用户画像分析 例如, 通过RFM模型对用户价值进行分类 重要价值用户: R 低, F 高, M 高, 这种用户价值度非常高, 因为忠诚度高, 付
阅读全文
摘要:Q3:数据倾斜系列 链接:https://zhuanlan.zhihu.com/p/262900663 ___________________________________________________________ Q3.1: 什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,
阅读全文
摘要:pandas import pandas as pd 2021/9/21 删除DataFrame中含缺失值的记录 DataFrame.dropna() DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=Fals
阅读全文
摘要:原论文: Predicting Clicks: Estimating the Click-Through Rate for New Ads, Microsoft, 2007 计费方式 cost-per-click (CPC): the search engine is paid every time
阅读全文
摘要:transformer sklearn.preprocessing.MinMaxScaler() sklearn.preprocessing.StandardScaler() sklearn.preprocessing.OneHotEncoder() sklearn.preprocessing.La
阅读全文
摘要:分支定界法 分支定界法(branch and bound)是一种求解整数规划问题的最常用算法。这种方法不但可以求解纯整数规划,还可以求解混合整数规划问题。分支定界法是一种搜索与迭代的方法,选择不同的分支变量和子问题进行分支。 通常,把全部可行解空间反复地分割为越来越小的子集,称为分支;并且对每个子集
阅读全文
摘要:-兰德系数(Rand Index) a: 在C和K中都分为同类的样本对的数量; b: 在C和K中都分为不同类的样本对的数量; 分母: 所有的样本对数量. 其中n为样本空间的大小. $ \frac{a+b}{C_{n}^2}$ -正则化熵 (Normalized Entropy, NE) NE等于预测
阅读全文
摘要:Facebook在2014年的这篇论文中提出了GBDT+LR的CTR预测模型, 利用GBDT自动进行特征筛选和组合,进而生成新的离散特征向量,再把该特征向量当作LR模型输入,预估CTR的模型结构。 原论文: http://citeseerx.ist.psu.edu/viewdoc/download;
阅读全文
摘要:大数定律 伯努利大数定律 设$μ_n$是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为p,则对任意正数$\epsilon$,有 $$ lim_{n\rightarrow \infty} P(|\frac{\mu_n}{n} - p| < \epsilon) = 1 $$ 中心极限定
阅读全文

浙公网安备 33010602011771号