随笔分类 -  机器学习

Machine Learning,相对宽泛的主题
摘要:近似近邻检索ANNS Approximate Nearest Neighbor Search (ANNS) 工业界拥有超大规模的数据,往往要求满足低延迟、低成本的向量检索需求,全量计算的精确近邻检索方式难以应用。 近年来各种向量检索算法层出不穷,但是依然面临很多挑战。 检索效果大致对比:HNSW>N 阅读全文
posted @ 2022-08-12 20:34 康行天下 阅读(1858) 评论(0) 推荐(0)
摘要:ROC ROC的全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,首先是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具(飞机、船舰),也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。此后被引入机器学习领域,用来评判 阅读全文
posted @ 2022-08-12 20:06 康行天下 阅读(541) 评论(0) 推荐(0)
摘要:Graph Embedding 基本概念 Graph Embedding 技术是一种将图的拓扑结构进行向量表示的方法,从而获取到网络关系信息,可应用于推荐等多种场景。计算节点在图中的空间特征的算法就是图嵌入(Graph Embedding)或网络嵌入(Network Embedding)。 图嵌入的 阅读全文
posted @ 2022-06-19 20:55 康行天下 阅读(1552) 评论(0) 推荐(0)
摘要:GBM(Gradient Boosting Machine)算法是Boosting(提升)算法的一种。主要思想是,串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度, 使加上该弱学习器后的累积模型损失往负梯度的方向减少。 且它用不同的权重将基学习器进行线性组合,使表现优秀 阅读全文
posted @ 2022-05-27 22:42 康行天下 阅读(1416) 评论(0) 推荐(0)
摘要:局部敏感哈希算法(Locality Sensitive Hashing,LSH) LSH是一种利用hash的方法,对向量进行快速近邻检索的方法,能高效处理海量高维数据的最近邻问题。LSH也是一种降维技术。 一般的hash算法我们知道当两个内容比较接近但不完全相同时hash值可能有比较大的差别,比如m 阅读全文
posted @ 2021-07-31 12:14 康行天下 阅读(2295) 评论(0) 推荐(0)
摘要:泰勒展开[^story] 在实际应用中对于具有复杂形式的函数我们常常希望用较为简单的函数形式表示他,而多项式就是这种简单的形式。比如对于指数函数、三角函数,我们可以使用多项式来逼近。 为了逼近(或者说是仿造)目标函数曲线f(x),首先选择一个切入点(x0,f(f0)),然后让此处的增减性相同,即一阶 阅读全文
posted @ 2019-08-27 10:05 康行天下 阅读(5276) 评论(0) 推荐(1)
摘要:排序模型LTR(L2R,learning to rank) Pointwise:对排序列表中的每一项,直接学习一个值,比如可以是预估点击率(Predict CTR,pCTR),然后按照预估值从大到小排序即可。常见模型有LR、FFM、GBDT、XGBoost。GBDT是LTR中应用较多的非线性模型。A 阅读全文
posted @ 2019-06-16 15:29 康行天下 阅读(7171) 评论(4) 推荐(0)
摘要:特征组合/特征交叉 为什么要特征交叉? 特征交叉的目的是「提升模型的效果」: 通过特征交叉,将样本映射至高维空间,从而增加模型的非线性能力,提升模型的预测效果。 从辛普森悖论的角度来看,只用低阶特征可能得出与用高阶特征相反的结论,如LR模型的表达能力很弱,容易得出错误的结论。 辛普森悖论:英国统计学 阅读全文
posted @ 2019-05-30 11:47 康行天下 阅读(3041) 评论(0) 推荐(0)
摘要:懒惰学习 基于近邻方法的分类算法被认为是懒惰学习算法,因为没有抽象化的步骤。懒惰学习并不是在学习什么,而是在存储训练数据,这样构建阶段就进行得很快,但进行预测的过程变得相对较慢。由于高度依赖于训练实例,所以懒惰学习又称为基于实例的学习或者机械学习。由于基于实例的学习算法并不会建立一个模型,所以该方法 阅读全文
posted @ 2018-08-07 16:31 康行天下 阅读(1024) 评论(0) 推荐(0)
摘要:线性代数基础 酉矩阵 (unitary matrix)是一种特殊的方阵,它满足 $UU^T=U^TU=I_n$. 不难看出,酉矩阵实际上是推广的正交矩阵(orthogonal matrix);当酉矩阵中的元素均为实数时,酉矩阵实际就是正交矩阵。 SVD(Singular Value Decompos 阅读全文
posted @ 2018-08-01 20:09 康行天下 阅读(1092) 评论(0) 推荐(0)
摘要:公式推导系列 "线性回归" : 最小二乘, normal equation "逻辑回归" : 最大似然损失函数 "SVM" : 转换为对偶问题,软间隔,核函数,SMO "EM" : 隐变量的后验概率函数(Q函数,最大化下界)与最大似然估计交替优化 "损失函数" : logistic, softmax 阅读全文
posted @ 2018-07-31 12:19 康行天下 阅读(1540) 评论(0) 推荐(0)
摘要:Bootstraping抽样 ☞ 一种有放回的抽样方法 Bootstraping的名称来自于成语"pull up your own bootstraps",意为依靠你自己的资源(自助法).bootstrap指靴子后边向上拉的小环,带子."通过拉靴子让自己上升”,意思是“不可能发生的事情”。后来意思发 阅读全文
posted @ 2018-07-26 22:52 康行天下 阅读(640) 评论(0) 推荐(0)
摘要:偏差方差分解 (误差分解) 先引入一个问题: Machine Learning 与 Curve Fitting 的区别是什么?[^curv fit] Curve Fitting 是使用所有的数据拟合一条曲线; 而 Machine Learning 是采用真实世界中采样的一小部分数据,并且我们希望我们 阅读全文
posted @ 2018-07-22 22:08 康行天下 阅读(11297) 评论(8) 推荐(4)
摘要:期望最大化算法 (EM) 算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法. 假设,有一个含有隐含变量 $z$ 的模型,其概率密度函数为 $P(x,z|θ)$。现在,我们希望得到模型的参数估计 $\theta$: $$ \begin{align} \hat{\theta} &=\mat 阅读全文
posted @ 2018-07-19 00:03 康行天下 阅读(427) 评论(0) 推荐(0)
摘要:梯度下降与坐标下降优化方法 梯度下降法 : 在每次迭代更新时选择负梯度方向(最速下降的方向)进行一次更新.不断迭代直至到达我们的目标或者满意为止. 坐标下降法 : 坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行搜索,通过循环使用不同的坐标方法来达到目标函数的局部极小值。求导时 阅读全文
posted @ 2018-07-14 17:27 康行天下 阅读(8428) 评论(0) 推荐(0)
摘要:希望本文成为你见过的反向传播理论中最易理解的解释和最简洁形式的公式推导 😃 反向传播是上世纪80年代提出的训练神经网络的一种方法,在每次迭代训练时修改对每个神经元输入的权值,来达到最后一层的输出与期望的输出的总误差最小的目的。反向传播算法可以说是梯度下降在链式法则中的应用。 反向传播与梯度下降 Q 阅读全文
posted @ 2018-07-13 17:23 康行天下 阅读(2938) 评论(0) 推荐(0)
摘要:Bagging Bagging的代表算法是随机森林,简单说下随机森林的步骤: (1) 对训练样本进行bootstrap采样,即有放回的采样,获得M个采样集合; (2) 在这M个采样集合上训练处M个弱决策树。注意到,在决策树生成中还用到了列采样的技巧,原本决策树中节点分裂时,是选择当前节点中所有属性的 阅读全文
posted @ 2018-07-06 10:53 康行天下 阅读(1464) 评论(1) 推荐(0)
摘要:特征工程 特征 = 数据中抽取出来的对结果预测有用的信息。 特征工程 = 使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。 更好的特征意味着 更强的灵活度 可用更简单的模型 更好的结果 本文介绍一些简单的特征工程方法以及特征选择和特征降维的方法。 范围调整, 归一化 阅读全文
posted @ 2018-05-25 10:48 康行天下 阅读(516) 评论(0) 推荐(0)
摘要:决策树 Decision Tree 类似于流程图,多叉树的结构,每个内部节点表示在一个属性上的测试,每个叶子节点代表类或类分布.其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为0. 信息熵 信息熵是对信息平均不确定性的度量,单位为比特(bit): $$H(X)= \sum_{ 阅读全文
posted @ 2018-04-27 16:19 康行天下 阅读(898) 评论(0) 推荐(0)
摘要:AdaBoost 是英文"Adaptive Boosting"(自适应增强)的缩写,其自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。是一种集成学习方法。 算法 1. 设训练数据集$T={(x_1,y_1), (x_2,y_2)...(x_N,y_N)}$. 初始化训练数据的权值分布(均 阅读全文
posted @ 2018-04-26 10:25 康行天下 阅读(313) 评论(0) 推荐(0)