两人比赛先选后选谁获胜系列的动态规划问题
摘要:1.分金子(奇虎360 2017春招真题) 题目描述 A、B两伙马贼意外地在一片沙漠中发现了一处金矿,双方都想独占金矿,但各自的实力都不足以吞下对方, 经过谈判后,双方同意用一个公平的方式来处理这片金矿。 处理的规则如下:他们把整个金矿分成n段,由A、B开始轮流从最左端或最右端占据一段,直到分完为止
阅读全文
LeetCode 全解(bug free 训练)
摘要:1.Two Sum 使用hash public int[] twoSum(int[] nums, int target) { int[] res = new int[2]; if (nums == null || nums.length < 2) { return res; } HashMap<In
阅读全文
局部敏感哈希LSH
摘要:之前介绍了Annoy,Annoy是一种高维空间寻找近似最近邻的算法(ANN)的一种,接下来再讨论一种ANN算法,LSH局部敏感哈希。 LSH的基本思想是: 原始空间中相邻的数据点通过映射或投影变换后,在新空间中仍然相邻的概率很大,而不相邻的数据点映射后相邻的概率比较小。 也就是说,我们对原始空间中的
阅读全文
Annoy解析
摘要:Annoy是高维空间求近似最近邻的一个开源库。 Annoy构建一棵二叉树,查询时间为O(logn)。 Annoy通过随机挑选两个点,并使用垂直于这个点的等距离超平面将集合划分为两部分。 如图所示,图中灰色线是连接两个点,超平面是加粗的黑线。按照这个方法在每个子集上迭代进行划分。 依此类推,直到每个集
阅读全文
多版本python import 问题解决方案
摘要:原文http://www.tuicool.com/articles/EnE7nm6 多版本Python共存[支持使用pip安装包] 有时特殊需要会要用到高版本的Python, 但是系统自带的版本又是很多其他工具依赖的, 不能随意更新。 所以就会考虑安装另一个版本的python环境, 然后需要用到这个
阅读全文
annoy安装
摘要:yum install gcc-c++ #linux下需安装c++编译器 sudo pip install annoy
阅读全文
word2vec
摘要:1.词编码需要满足的几个条件: 保证词的相似性 向量空间分布的相似性 向量空间子结构(男人女人 国王女王) 2.计算机中表示一个词: 字典表示的话:不能分辨细节差异,需要大量认为劳动,主观,无法发现新词,很难精确凭借词之间的相似度 离散表示:one hot encoding (bag of word
阅读全文
GBDT
摘要:随机森林的Dtree是强分类器,而ABDT、GBDT的决策树是弱分类器。 ABDT GBDT的本质区别在于:损失函数不同,ABDT的损失函数是指数函数,GBDT做回归的损失函数是平方损失。min(eita) min(h)sigma n = 1,...,N err(sigma tao = 1,...,
阅读全文
Adaptive Boosting
摘要:AdaBoost是boosting的一种方法,其原理是通过改变训练样本的权重,得到m个不同的分类器,每个分类器根据其误差率em,有不同的权重系数alpha m,最后组合这些不同的分类器,得到最终的分类器。 具体地,首先所有样本权重都初始化为一样,学习之后或得一个em,根据em计算alpha m =
阅读全文
融合模型Aggregation
摘要:从一堆弱分类器融合得到强分类器。 比如假设现在你只能水平或竖直线分割,那么无论如何都分不好,但是假设组合三次分割,就会得到如图所示的一个较好的分割线。 再比如,PLA 融合后有large margin 的效果 几种可能的融合策略: 1.Uniform Blending 一人一票,权值相同。 理论保证
阅读全文
[转载]kd tree
摘要:[本文转自]http://www.cnblogs.com/eyeszjwang/articles/2429382.html k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。 应用背景 SIFT算法中做特征
阅读全文
朴素贝叶斯
摘要:基于贝叶斯公式:P(y|x) = P(y) * P(x | y) / p(x) 具体业务场景描述如下,用于分类问题。 我现在有训练集,每个训练集可以转换为一个特征值的向量Vec = [.........]和一个标签(是否是垃圾邮件,是否点击,是否患病等) 现在我们要基于训练集来预测新的特征值输进来之
阅读全文