随笔分类 -  机器学习

大数据 mllib 算法
摘要:在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。 当在具有常量非零列的数据集上匹配AF 阅读全文
posted @ 2017-07-25 10:50 亢奋的小马哥 阅读(1111) 评论(0) 推荐(0)
摘要:多层感知器分类器(MLPC)是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。 每个层完全连接到网络中的下一层。 输入层中的节点表示输入数据。 所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输入映射到输出。 对于具有K + 1层的MLPC,这可以以矩阵 阅读全文
posted @ 2017-07-25 10:07 亢奋的小马哥 阅读(1269) 评论(0) 推荐(0)
摘要:梯度提升树(GBT)是决策树的集合。 GBT迭代地训练决策树以便使损失函数最小化。 spark.ml实现支持GBT用于二进制分类和回归,可以使用连续和分类特征。 GBDT的优点 GBDT和随机森林一样,都具备决策树的一些优点: (1)可以处理类别特征和连续特征; (2)不需要对数据进行标准化预处理; 阅读全文
posted @ 2017-07-24 18:06 亢奋的小马哥 阅读(1910) 评论(0) 推荐(0)
摘要:package mlimport java.utilimport org.apache.spark.mllib.linalg.{Vector, Vectors}import org.apache.spark.mllib.linalg.distributed.RowMatriximport org.a 阅读全文
posted @ 2017-07-14 14:39 亢奋的小马哥 阅读(4153) 评论(0) 推荐(0)
摘要:一、概念 KMeans基于划分的聚类方法 给定数据样本集Sample和应该划分的类书K,对样本数据Sample进行聚类,最终形成K个聚类,其相似的度量是某条数据与中心点的“距离”(距离可分为绝对距离、欧氏距离、闵可夫斯基距离。这里说的距离是欧式距离,欧氏距离也称欧几里得距离,它是在m维空间中两个点之 阅读全文
posted @ 2017-06-30 09:19 亢奋的小马哥 阅读(551) 评论(0) 推荐(0)
摘要:ALS 是交替最小二乘 (alternating least squares)的简称。在机器学习的上下文中,ALS 特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。 用户打分矩阵(行表示商品,列表示用户,每行表示用户对多个商 阅读全文
posted @ 2017-06-02 16:47 亢奋的小马哥 阅读(590) 评论(0) 推荐(0)
摘要:特征选择很重要,除了人工选择,还可以用其他机器学习方法,如逻辑回归、随机森林、PCA、LDA等。 分享一下逻辑回归做特征选择 特征选择包括: 特征升维 特征降维 特征升维 如一个样本有少量特征,可以升维,更好的拟合曲线 特征X 升维X/X**2/ 效果验证,做回归 加特征x**2之后的效果 特征X1 阅读全文
posted @ 2017-06-01 15:20 亢奋的小马哥 阅读(4456) 评论(0) 推荐(0)
摘要:svm是一种分类算法,一般先分为两类,再向多类推广一生二,二生三,三生。。。 大致可分为: 线性可分支持向量机 硬间隔最大化hard margin maximization 硬间隔支持向量机 线性支持向量机 软间隔最大化soft margin maximization 软间隔支持向量机 阅读全文
posted @ 2017-06-01 11:41 亢奋的小马哥 阅读(2495) 评论(0) 推荐(0)