随笔分类 -  ML

机器学习
摘要:train.csv数据: id,name,age,sex1,lyy,20,F2,rdd,20,M3,nyc,18,M4,mzy,10,M 数据读取: root |-- id: integer (nullable = true) |-- name: string (nullable = true) | 阅读全文
posted @ 2018-08-23 12:04 一直爬行的蜗牛牛 阅读(1745) 评论(0) 推荐(0)
摘要:数据1:kaggle-旧金山犯罪分类数据 格式如下: Dates,Category,Descript,DayOfWeek,PdDistrict,Resolution,Address,X,Y 2015-05-13 23:53:00,WARRANTS,WARRANT ARREST,Wednesday,NORTHERN,"ARREST, BOOKED",OAK ST / LAGUNA ST,-122.... 阅读全文
posted @ 2018-08-22 15:49 一直爬行的蜗牛牛 阅读(1707) 评论(0) 推荐(0)
摘要:商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个: 文章目录 1 UCL机器学习知识库 2 Amazon AWS公开数据集 3 Kaggle 4 KDnuggets 5 美国联邦政府数据集 6 来自infochimp 阅读全文
posted @ 2018-08-20 16:59 一直爬行的蜗牛牛 阅读(1743) 评论(0) 推荐(0)
摘要:Stratified sampling 1. 基本概念 统计学理论中,分层抽样针对的是对一个总体(population)进行抽样的方法。尤其适用于当总体内部,子总体(subpopulations)间差异较大时。每一个 subpopulation,也称为层(stratum)。 LL 表示层的数量,其中 阅读全文
posted @ 2018-07-11 15:08 一直爬行的蜗牛牛 阅读(1844) 评论(0) 推荐(0)
摘要:本地矩阵具有整型的行、列索引值和双精度浮点型的元素值,它存储在单机上。MLlib支持稠密矩阵DenseMatrix和稀疏矩阵Sparse Matrix两种本地矩阵,稠密矩阵将所有元素的值存储在一个列优先(Column-major)的双精度型数组中,而稀疏矩阵则将非零元素以列优先的CSC(Compre 阅读全文
posted @ 2018-07-10 14:04 一直爬行的蜗牛牛 阅读(741) 评论(0) 推荐(0)
摘要:标注点LabeledPoint是一种带有标签(Label/Response)的本地向量,它可以是稠密或者是稀疏的。在MLlib中,标注点在监督学习算法中被使用。由于标签是用双精度浮点型来存储的,故标注点类型在回归(Regression)和分类(Classification)问题上均可使用。例如,对于 阅读全文
posted @ 2018-07-10 11:49 一直爬行的蜗牛牛 阅读(5672) 评论(1) 推荐(1)
摘要:Spark mlib的本地向量有两种: DenseVctor :稠密向量 其创建方式 Vector.dense(数据) SparseVector :稀疏向量 其创建方式有两种: 方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组) 方法二:Vector.sparse( 阅读全文
posted @ 2018-07-10 11:29 一直爬行的蜗牛牛 阅读(343) 评论(0) 推荐(0)
摘要:《Spark 官方文档》机器学习库(MLlib)指南 spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底 阅读全文
posted @ 2018-07-10 11:21 一直爬行的蜗牛牛 阅读(375) 评论(0) 推荐(0)