摘要: 特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 卡方独立检验 阅读全文
posted @ 2018-01-31 17:45 大葱拌豆腐 阅读(784) 评论(0) 推荐(0)
摘要: 数据规范化(标准化) 在数据预处理时,这两个术语可以互换使用。(不考虑标准化在统计学中有特定的含义)。 下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的。 首先举一个例子: Normalizer 规范化 将某个特征向量(由所有样本某一个特征组成的向量)计算其p 阅读全文
posted @ 2018-01-31 15:00 大葱拌豆腐 阅读(1877) 评论(0) 推荐(0)
摘要: 转载自:http://www.cnblogs.com/CheeseZH/p/5265959.html SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改, 阅读全文
posted @ 2018-01-31 11:15 大葱拌豆腐 阅读(474) 评论(0) 推荐(0)
摘要: 本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有样本的特征向量组成的矩阵 x(i) 是第i个样本包含的所有特征组成的向量x(i)=(x(i)1,x( 阅读全文
posted @ 2018-01-31 10:51 大葱拌豆腐 阅读(339) 评论(0) 推荐(0)