12 2018 档案
摘要:SVD(singular value decomposition),翻译成中文就是奇异值分解。SVD的用处有很多,比如:LSA(隐性语义分析)、推荐系统、特征压缩(或称数据降维)。SVD可以理解为:将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示,这3个小矩阵描述了大矩阵重要的特性 Apri
阅读全文
摘要:这两篇文章(上,下)已经总结得很好了 http://www.cnblogs.com/pinard/p/6050306.html https://www.cnblogs.com/pinard/p/6053344.html 1. 数学基础 1.信息论的信息熵:Entropy 2.基尼不纯度:Gini i
阅读全文
摘要:1. SVM核函数概述 在scikit-learn中,内置的核函数一共有4种,当然如果你认为线性核函数不算核函数的话,那就只有三种。 1)线性核函数(Linear Kernel)表达式为:K(x,z)=x∙zK(x,z)=x∙z,就是普通的内积,LinearSVC 和 LinearSVR 只能使用它
阅读全文
摘要:SVM算法要解决的是一个最优分类器的设计问题 线性SVM算法的数学建模 一个最优化问题通常有两个最基本的因素:1)目标函数,也就是你希望什么东西的什么指标达到最好; 分类间隔2)优化对象,你期望通过改变哪些因素来使你的目标函数达到最优。 决策面 在线性SVM算法中,目标函数显然就是那个“分类间隔”,
阅读全文
摘要:支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年,但是自一诞生便由于它良好的分类性能席卷了机器学习领域,并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法,不考虑特定的训练数据集,在分类算法中的表现SVM说是排第一估计是没有什么异议的。 参考
阅读全文
摘要:朴素贝叶斯naive bayes是直接生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y)P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)得出。 朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法 这里提到的贝叶斯定理、特征条件独立假设
阅读全文
摘要:1-3月 1. 机器学习理论与实践 1月 1)classfication (K近邻,决策树,支持向量机,朴素贝叶斯,逻辑回归,adaboost) NLP number K近邻 KNeighborsClassifier -> K-D Tree, Ball Treeic LogistRegression
阅读全文
摘要:正则化方法:防止过拟合,提高泛化能力 避免过拟合的方法有很多:Early stopping、数据集扩增(Data augmentation)、正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay),dropout。 L2 regular
阅读全文
摘要:http://www.cnblogs.com/willnote/p/6801496.html 总结得不错 AdaBoost是最著名的Boosting族算法。开始时,所有样本的权重相同,训练得到第一个基分类器。从第二轮开始,每轮开始前都先根据上一轮基分类器的分类效果调整每个样本的权重,上一轮分错的样本
阅读全文
摘要:机器学习分类(1)监督学习 数据集是有标签的,就是说对于给出的样本我们是知道答案的,我们大部分学到的模型都是属于这一类的,包括线性分类器、支持向量机等等; (2)无监督学习 跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,
阅读全文
摘要:12. Capturing and Using Process Metrics Two process metrics:• Velocity (features per week) (每周功能数)• Cycle time (weeks per feature) 周期时间(每个功能的开发时间) 1.
阅读全文
摘要:法一:Bag-of-words 词袋模型 文本特征提取有两个非常重要的模型: 词集模型:单词构成的集合,集合中每个元素都只有一个,也即词集中的每个单词都只有一个 词袋模型:如果一个单词在文档中出现不止一次,并统计其出现的次数(频数) 两者本质上的区别,词袋是在词集的基础上增加了频率的纬度,词集只关注
阅读全文
摘要:特征归一化主要有两种方法: 1、线性函数归一化(Min-Max scaling) 线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下: 线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下: 该方法实现对原始数据的等比例缩放,其中Xnorm为归一化后的数据,X为原始
阅读全文

浙公网安备 33010602011771号