随笔分类 - Machine learning
机器学习 深度学习
摘要:# save x = torch.tensor([1,2,3]) np.savez("./tmp.npz",x) # save dict save_inp_file = "./text.npz" a = [torch.tensor([i]) for i in range(5)] b = [torch
阅读全文
摘要:快速梳理 LSTM(Long Short-Term Memory)长短期记忆人工神经网络是对RNN的一种改进,可以有效解决RNN存在的长期依赖问题。下图展示了LSTM的网络结构,我们可以看到其中有许多奇怪的部分,被称之为“门”。下面就具体介绍一下遗忘门,输入门和输出门以及重要的细胞状态(Cell)。
阅读全文
摘要:曼哈顿距离 描述2点之间的绝对值距离,\(L = |x_1 - x_2| + |y_1 - y_2|\) 欧氏距离 描述2点之间的直线距离,\(L = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2}\) Pearson相关系数 Pearson 相关系数是用协方差除以两个变量的标准差
阅读全文
摘要::》很早就想整理这个话题的,但是一直拖到现在,因为最近刚好有和别人聊到LDA相关的话题就下定决心整理一下。(当然主题词模型不只LDA这一种) ##主题以及主题词模型 在NLP领域,主题topic一般是通过关键词的形式描述的,一类主题就可以有一个关键词所组成的set来表示,例如体育相关的主题所对应的主
阅读全文
摘要:什么是决策树? 这次不搬运百科定义了,用通俗的话概括一下,就是把数据按照不同属性(由宽泛到精细)进行归类而构造出来的一颗“树”。西瓜书给出了一个基本算法流程,参考下图。 现在你应该对决策树有一个大概的印象了,这里最重要的部分是什么呢?其实是算法第8行,如何寻找最优的划分属性。现在举一个例子,你想约妹
阅读全文
摘要:Bias & Variance 在介绍欠拟合与过拟合之前需要先了解一下偏差与方差的知识。首先关于Generalization error (aka empirical risk)的观点我觉得作者JR总结的很好,引用如下 在机器学习中,我们用训练数据集去训练(学习)一个model(模型),通常的做法是
阅读全文
摘要:介绍 搬运一下百度百科的定义, 支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平
阅读全文
摘要:在构建分类器,经过大量数据训练测试后,该如何评估这个分类器的效果?这里总结几个常用的衡量分类器表现的指标。 1、Accuracy 对于一份测试集,Accuracy衡量了分类预测label的准确度。 \(Accuracy = \frac{正确标记的测试数据的数量}{总测试数据的数量}\) 例如,预测l
阅读全文
摘要:KNN(K-Nearest Neighbour)算法应该是一个比较简单常用的分类方法了。 其大致思路是,假设我们数据中有m个label,对于新数据(测试数据),计算它与其他数据点的“距离”,选择“最近”的k个数据,然后根据这k个数据中最多的label给新数据标记。这里的距离也是有很多选择方式,如欧氏
阅读全文
摘要:朴素贝叶斯(Naive Bayes)是一种基于概率理论的监督学习算法。 这里提下贝叶斯公式, \(P(C,X) = P(C|X)P(X)=P(X|C)P(C)\) \(P(C|X) = \frac{P(X|C)P(C)}{P(X)}\) 现在我希望我预测的 \(\hat{C} = argmax_{c
阅读全文
摘要:K-means是比较一种流行的聚类算法,它以非监督的方式将数据分为k个聚类。具体步骤如下, 随机地选择k个数据点作为初始分类的中心(+标记) 计算所有数据点与k个分类中心的“距离”(e.g.欧式距离),将它们标记为最近的那个分类,如上图 对每种分类数据群,重新计算他们的中心(mean point),
阅读全文
摘要:      
浙公网安备 33010602011771号