随笔档案「2018年3月」 - mdumpling

TOP K和Partition对比

摘要：TOP k算法适用于海量数据，不用一批装入内存。。 partition算法需要全部装入内存排序，需要修改原数据。。阅读全文

posted @ 2018-03-31 19:55 mdumpling 阅读(186) 评论(0) 推荐(0)

大数据题目~

摘要：1.有一个词典，包含N个英文单词，现在任意给一个字符串，设计算法找出包含这个字符串的所有英文单词比如输入ing词缀，找出形如having,sing,doing等单词；字符串比较算法(kmp等等)，需要一个一个比较。如果查询多次，可以考虑建立关于字母的倒排索引；然后取集合交集，考虑字母顺序。阅读全文

posted @ 2018-03-31 15:09 mdumpling 阅读(177) 评论(0) 推荐(0)

Normalization，Regularization 和 standardization

摘要：https://www.zhihu.com/question/59939602 阅读全文

posted @ 2018-03-29 22:03 mdumpling 阅读(135) 评论(0) 推荐(0)

Huber loss<转发>

摘要：from https://blog.csdn.net/lanchunhui/article/details/50427055请移步原文阅读全文

posted @ 2018-03-29 21:50 mdumpling 阅读(270) 评论(0) 推荐(0)

梯度下降

摘要：多元函数沿其负梯度方向下降最快阅读全文

posted @ 2018-03-29 19:15 mdumpling 阅读(175) 评论(0) 推荐(0)

FM算法详解

摘要：https://blog.csdn.net/jediael_lu/article/details/77772565 https://blog.csdn.net/bitcarmanlee/article/details/52143909 ################################ 阅读全文

posted @ 2018-03-28 18:27 mdumpling 阅读(680) 评论(0) 推荐(0)

《转发》特征工程——categorical特征和 continuous特征

摘要：from http://breezedeus.github.io/2014/11/15/breezedeus-feature-processing.html 请您移步原文观看，本文只供自己学习使用连续（continuous）特征；无序类别（categorical）特征；有序类别（ordinal 阅读全文

posted @ 2018-03-28 15:12 mdumpling 阅读(1005) 评论(0) 推荐(0)

（转载）搜索引擎的Query自动纠错技术和架构详解

摘要：from http://www.52nlp.cn/%E8%BE%BE%E8%A7%82%E6%95%B0%E6%8D%AE%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E7%9A%84query%E8%87%AA%E5%8A%A8%E7%BA%A0%E9%94%99%E6 阅读全文

posted @ 2018-03-28 13:32 mdumpling 阅读(2784) 评论(0) 推荐(0)

搜索引擎纠错技术

摘要：from：https://www.zhihu.com/question/24675366?sort=created 中文：主要是从拼音角度，比如输入“雷缝”（雷锋），使用编辑距离会改变要查询的语义，所以我们从同音词入手，使用噪声信道模型，先确定出一些常见的相关词，再确定概率。英文：主要是单词拼写，阅读全文

posted @ 2018-03-28 11:12 mdumpling 阅读(2679) 评论(0) 推荐(0)

Attention机制中权重的计算

摘要：Attention mechanism中，给输入序列中对应的每一个Ht分配权重（打分）究竟是如何打分？输入序列打分，a(s, h) 其中s是输出序列的t-1时刻的隐藏层状态，h是输入的多个状态，阅读全文

posted @ 2018-03-27 13:52 mdumpling 阅读(4178) 评论(0) 推荐(0)

布隆过滤器

摘要：作用：磁盘上有很大的数据，查找数据，去重，查找次数，能用于计数吗？？ bitmap :一个数据是32位的，就有2的32次种可能，所有有2的32的bits；布隆：你数据虽然是32位的，但我的位的个数和你有多少数据n有关，和你的数据位数没有关系。。。常用的m=16n,k=8; 在面试时遇到的问题，问阅读全文

posted @ 2018-03-27 13:13 mdumpling 阅读(250) 评论(0) 推荐(0)

Adboost几个要点分析

摘要：1.本质就是前向步进算法和加法模型，每一步计算分类器权重alpha和基分类器。 2.总体降低指数误差函数，转化为每一步降低分类误差率。因为右边可以看作常数，所以相当于对这个进行优化但是这一步可能做到最优吗？如果是最优，那么左边这一项为0，为0？全部分类正确？阅读全文

posted @ 2018-03-26 10:21 mdumpling 阅读(222) 评论(0) 推荐(0)

二分法。。。。

摘要：数组数值型编程题。。。多数用二分法，如何构造二分剪枝很关键；或者采用队列，双端队列，堆栈等数据结构；不一定非要排序才能二分；阅读全文

posted @ 2018-03-23 21:41 mdumpling 阅读(149) 评论(0) 推荐(0)

智障博客真是多

摘要：！！！！！网上的博客没有几篇是可以看的，错误太多，智障太多！阅读全文

posted @ 2018-03-23 10:19 mdumpling 阅读(170) 评论(0) 推荐(0)

决策树如何对连续性特征进行分段？

摘要：特征离散化处理问题抽象假设训练样本集合D中有n个样本，考察对连续属性a的最佳分段点/划分点。若属性a在这n个样本中有m个不同的取值(m<=n)，对这m个值两两之间取中点，可获得m-1个中点作为候选划分点。选择过程接下来的选择最佳划分点过程和离散属性的虚选择过程类似，以基尼系数或信息增益作为度量，阅读全文

posted @ 2018-03-22 22:14 mdumpling 阅读(1922) 评论(0) 推荐(0)

CNN简略总结

摘要：https://blog.csdn.net/real_myth/article/details/51824193 池化层的作用：感受野变化。。。？？ 1*1卷积核的作用 1. 实现跨通道的交互和信息整合 2. 进行卷积核通道数的降维和升维，减少网络参数 https://www.zhihu.com/ 阅读全文

posted @ 2018-03-22 21:40 mdumpling 阅读(192) 评论(0) 推荐(0)

集成学习算法总结----Boosting和Bagging

摘要：1、集成学习概述 1.1 集成学习概述集成学习在机器学习算法中具有较高的准去率，不足之处就是模型的训练过程可能比较复杂，效率不是很高。目前接触较多的集成学习主要有2种：基于Boosting的和基于Bagging，前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森阅读全文

posted @ 2018-03-22 19:30 mdumpling 阅读(303) 评论(0) 推荐(0)

在神经网络中weight decay

摘要：weight decay（权值衰减）的最终目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损阅读全文

posted @ 2018-03-22 19:28 mdumpling 阅读(668) 评论(0) 推荐(0)

梯度下降法与方向导数

摘要：from https://www.zhihu.com/question/30672734 下面从梯度与方向导数的关系来解释： 1 方向导数引入引入原来我们学到的偏导数指的是多元函数沿坐标轴的变化率，但是我们往往很多时候要考虑多元函数沿任意方向的变化率，那么就引出了方向导数定义定义（1）方阅读全文

posted @ 2018-03-22 18:27 mdumpling 阅读(1786) 评论(0) 推荐(0)

理解dropout

摘要：http://blog.csdn.net/stdcoutzyx/article/details/49022443 http://www.dataguru.cn/article-10459-1.html 阅读全文

posted @ 2018-03-20 17:00 mdumpling 阅读(126) 评论(0) 推荐(0)

交叉熵和softmax

摘要：深度学习分类问题结尾就是softmax,损失函数是交叉熵，本质就是极大似然。。。阅读全文

posted @ 2018-03-20 15:21 mdumpling 阅读(158) 评论(0) 推荐(0)

Word2Vec小心得

摘要：今天终于想明白了分层softmax的作用：哈夫曼树的作用是什么？？用平均最小的长度编码！编码是为了解码成信息！神经概率语言模型：有映射层，隐藏层，输出层，假设隐藏层是300维，输出层是和单词的数量相等的，因为传统Softmax的原因，比如有10000的词，那么参数就是300*10000=3000 阅读全文

posted @ 2018-03-20 14:56 mdumpling 阅读(139) 评论(0) 推荐(0)

KL散度

摘要：from http://blog.csdn.net/ericcchen/article/details/72357411 KL散度( KL divergence) 全称：Kullback-Leibler Divergence 用途：比较两个概率分布的接近程度在统计应用中，我们经常需要用一个简单的，阅读全文

posted @ 2018-03-20 09:52 mdumpling 阅读(772) 评论(0) 推荐(0)

多标签分类问题

摘要：https://www.zhihu.com/question/35486862 阅读全文

posted @ 2018-03-20 09:46 mdumpling 阅读(111) 评论(0) 推荐(0)

找出各种情况的两种套路（算法）

摘要：有两种题型： 1.在一堆数中找到符合条件的组合可以使用回溯法，剪枝 2.一般有套路了，时间复杂度往往为O(n)等，就是只要一种情况成立了，就不用向下继续搜索了，其他情况全部成立和回溯法典型区别：一个是不行直接返回，其他都不成立，一种是最差的情况都成立，其他的也成立。阅读全文

posted @ 2018-03-20 09:34 mdumpling 阅读(223) 评论(0) 推荐(0)

LDA主题模型评估方法–Perplexity

摘要：在LDA主题模型之后，需要对模型的好坏进行评估，以此依据，判断改进的参数或者算法的建模能力。 Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。一、Perplexity定义源于wiki：http://en.wikipedi 阅读全文

posted @ 2018-03-19 20:42 mdumpling 阅读(7009) 评论(0) 推荐(1)

TextRank算法

摘要：TextRank算法 TextRank算法基于PageRank，用于为文本生成关键字和摘要。其论文是： Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguis 阅读全文

posted @ 2018-03-18 22:56 mdumpling 阅读(877) 评论(0) 推荐(0)

通俗理解条件熵

摘要：注意，这个条件熵，不是指在给定某个数（某个变量为某个值）的情况下，另一个变量的熵是多少，变量的不确定性是多少？而是期望！阅读全文

posted @ 2018-03-18 13:53 mdumpling 阅读(262) 评论(0) 推荐(0)

最小二乘法

摘要：注意向量的写法已经如何对向量求导的方法阅读全文

posted @ 2018-03-18 13:38 mdumpling 阅读(161) 评论(0) 推荐(0)

贝叶斯终级简单理解

摘要：贝叶斯可以计算类条件概率阅读全文

posted @ 2018-03-10 15:50 mdumpling 阅读(169) 评论(0) 推荐(0)

数据缺失处理

摘要：https://www.zhihu.com/question/26639110 阅读全文

posted @ 2018-03-09 10:10 mdumpling 阅读(166) 评论(0) 推荐(0)

交叉验证

摘要：https://www.cnblogs.com/sddai/p/5696834.html 阅读全文

posted @ 2018-03-09 10:08 mdumpling 阅读(114) 评论(0) 推荐(0)

LDA终极分析

摘要：http://www.cnblogs.com/pinard/p/6867828.html http://www.52nlp.cn/lda-math-mcmc-和-gibbs-sampling2 http://www.52nlp.cn/lda-math-mcmc-和-gibbs-sampling1 相阅读全文

posted @ 2018-03-08 22:27 mdumpling 阅读(229) 评论(0) 推荐(0)

数据不均衡方法

摘要：http://blog.csdn.net/heyongluoyao8/article/details/49408131 阅读全文

posted @ 2018-03-08 13:09 mdumpling 阅读(138) 评论(0) 推荐(0)

深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)

摘要：http://blog.csdn.net/u014595019/article/details/52989301 阅读全文

posted @ 2018-03-08 13:04 mdumpling 阅读(311) 评论(0) 推荐(0)

操作系统-分段机制

摘要：意义：分页机制是为了充分利用空间，将琐碎的地址空间利用起来；分段机制是为了解决冲突问题，它是一种机制，这种机制使得很方便地管理内存； 1. 内存分段 1.1 为什么分段？在x86-16体系中，为了解决16位寄存器对20位地址线的寻址问题，引入了分段式内存管理。而CPU则使用CS，DS，ES，SS 阅读全文

posted @ 2018-03-02 19:23 mdumpling 阅读(9564) 评论(2) 推荐(2)

03 2018 档案