随笔分类 - b:Machine Learning
摘要:Softmax函数,或称归一化指数函数,它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量$\sigma{(z)}$中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数的形式通常按下面的式子给出: $$ \sigma{(z)_j}=\frac{e^{z_j}}{\sum_
阅读全文
摘要:如何用textgenrnn处理中文 1. 什么是textgenrnn? textgenrnn是建立在Keras和TensorFlow之上的,可用于生成 和`词级别`文本。网络体系结构使用注意力加权来加速训练过程并提高质量,并允许调整大量超参数,如RNN模型大小、RNN层和双向RNN。对细节感兴趣的读
阅读全文
摘要:1. 什么是TF IDF tf idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现
阅读全文
摘要:SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似
阅读全文
摘要:英文链接:http://scikit-learn.org/stable/auto_examples/applications/topics_extraction_with_nmf_lda.html 这是一个使用NMF和LDA对一个语料集进行话题抽取的例子。 输入分别是是tf-idf矩阵(NMF)和t
阅读全文
摘要:从网上看到一篇总结的很不错的sklearn使用文档,备份勿忘。 引言 对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库
阅读全文
摘要:数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据
阅读全文
摘要:本文来自网络,属于对各评价指标的总结,如果看完之后,还不是很理解,可以针对每个评价指标再单独搜索一些学习资料。加油~! 对于分类算法,常用的评价指标有: (1)Precision (2)Recall (3)F-score (4)Accuracy (5)ROC (6)AUC ps:不建议翻译成中文,尤
阅读全文
摘要:源码:https://github.com/cheesezhe/Coursera-Machine-Learning-Exercise/tree/master/ex5Introduction:In this exercise, you will implement regularized linear...
阅读全文
摘要:1. Feedforward and cost function;2.Regularized cost function:3.Sigmoid gradientThe gradient for the sigmoid function can be computed as:where:4.Random...
阅读全文
摘要:Handwritten digits recognition (0-9)Multi-class Logistic Regression1. Vectorizing Logistic Regression(1) Vectorizing the cost function(2) Vectorizing ...
阅读全文
摘要:1. 点击编辑器中的插入图片;2.在URL输入下边的地址:http://latex.codecogs.com/gif.latex?你的latex代码就可以了~
阅读全文
摘要:1. Sigmoid FunctionIn Logisttic Regression, the hypothesis is defined as:where function g is the sigmoid function. The sigmoid function is defined as:...
阅读全文
摘要:标准偏差 标准偏差(Std Dev,Standard Deviation) -统计学名词。一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。 标准差也被称为标准偏差,或者实验标准...
阅读全文
摘要:(1) How to comput the Cost function in Univirate/Multivariate Linear Regression;(2) How to comput the Batch Gradient Descent function in Univirate/Mul...
阅读全文
摘要:1 1.Basic Operations 2 5+6 3 3-2 4 5*8 5 1/2 6 2^6 7 1 == 2 %false ans = 0 8 1 ~= 2 %true ans = 1 9 1 && 0 %AND ans = 0 10 1 || 0 %OR ans =...
阅读全文
摘要:哈希存储布隆过滤器归并排序快速排序推排序分布式架构trie树bit_maphash_map搜索二叉树/红黑树
阅读全文
摘要:1.17-18:学习HMM模型;1.18-20:学习CRF模型(未完成);1.20-24:应用HMM到具体问题;1.24-27:扩展为second-order HMM(扩展Bi-gram MLE到Tri-gram MLE;扩展Viterbi算法);明确了BW算法不适合正在解决的问题;1.28:在词性...
阅读全文
摘要:网上关于HMM的学习资料、博客有很多,基本都是左边摘抄一点,右边摘抄一点,这里一个图,那里一个图,公式中有的变量说不清道不明,学起来很费劲。经过浏览几篇博文(其实有的地方写的也比较乱),在7张4开的草稿纸上写公式、单步跟踪程序,终于还是搞清楚了HMM的原理。HMM学习过程:1、搜索相关博客:隐马尔可...
阅读全文
摘要:来源:36大数据 作者:LinkinPark现一个key-value的数据库,那么有很多种模式都可以实现,但是他们最终所达到的效果却是千差万别的。同样,在机器学习领域,如果我想实现一个分类器,也有很多种算法,但是每种算法都对数据做了不同的前提假设。曾经当我们处理少量数据的时候,我们往往可以先设计若干...
阅读全文

浙公网安备 33010602011771号