随笔分类 -  Spark

摘要:结果: + +| features|+ +|[5.1,3.5,1.4,0.2]||[4.9,3.0,1.4,0.2]||[4.7,3.2,1.3,0.2]||[4.6,3.1,1.5,0.2]||[5.0,3.6,1.4,0.2]||[5.4,3.9,1.7,0.4]||[4.6,3.4,1.4,0 阅读全文
posted @ 2017-11-07 16:02 soyosuyang 阅读(335) 评论(0) 推荐(0)
摘要:结果: + + + + + + +| features| label|indexedLabel| indexedFeatures|prediction|predictedLabel|+ + + + + + +|[4.6,3.1,1.5,0.2]|hadoop| 1.0|[4.6,3.1,1.5,0. 阅读全文
posted @ 2017-11-06 16:08 soyosuyang 阅读(1091) 评论(0) 推荐(0)
摘要:方差:是每个样本值与全体样本值的平均数之差的平方值的平均数 标准差:是方差的算术平方根。标准差能反映一个数据集的离散程度 均方误差:对每一个样本,利用机器学习模型判定的类型与真实类型的差值的平方的平均数。(它是观测值与真值偏差的平方与观测次数n比值) 均方根误差(亦称标准误差):它是观测值与真值偏差 阅读全文
posted @ 2017-11-06 15:49 soyosuyang 阅读(1902) 评论(0) 推荐(0)
摘要:结果为: + + +| features| label|+ + +|[5.1,3.5,1.4,0.2]|hadoop||[4.9,3.0,1.4,0.2]|hadoop||[4.7,3.2,1.3,0.2]|hadoop||[4.6,3.1,1.5,0.2]|hadoop||[5.0,3.6,1.4 阅读全文
posted @ 2017-11-06 14:22 soyosuyang 阅读(530) 评论(0) 推荐(0)
摘要:分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。 举几个例子: 1. Logistic Regression 和 Linear Regression: Linear Regression: 输出一个标量 wx+b,这个值是连续值,所以可以用来处理回归问题。 Logistic Regre 阅读全文
posted @ 2017-11-05 16:30 soyosuyang 阅读(4737) 评论(0) 推荐(0)
摘要:结果: + + + + + + + + +| features|label|indexedLabel| indexedFeatures| rawPrediction| probability|prediction|predictionLabel|+ + + + + + + + +|[4.4,3.2, 阅读全文
posted @ 2017-11-05 15:58 soyosuyang 阅读(2290) 评论(1) 推荐(0)
摘要:结果: + + +| features|label|+ + +|[5.1,3.5,1.4,0.2]|soyo1||[4.9,3.0,1.4,0.2]|soyo1||[4.7,3.2,1.3,0.2]|soyo1||[4.6,3.1,1.5,0.2]|soyo1||[5.0,3.6,1.4,0.2]| 阅读全文
posted @ 2017-11-05 15:48 soyosuyang 阅读(675) 评论(0) 推荐(0)
摘要:结果: + + + + + + + + +|features |label|indexedLabel|indexedFeatures |rawPrediction |probability |prediction|predictionLabel|+ + + + + + + + +|[4.4,2.9, 阅读全文
posted @ 2017-11-05 15:46 soyosuyang 阅读(1344) 评论(0) 推荐(0)
摘要:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 (1) 面向主题:指数据仓库中的数据是按照一定的主题域进行组织。 阅读全文
posted @ 2017-11-05 10:15 soyosuyang 阅读(269) 评论(0) 推荐(0)
摘要:总结:(图上 R的计算的分母应该是 :40+10 )(笔误) 模型条件放宽,负类被误判为正类的可能性就变大(即FP变大)精确率和准确率会受影响(变小) 模型条件变严格,正类有可能被误判为负类(即FN变大)召回率会变小 F-measure是一种统计量,F-Measure又称为F-Score,F-Mea 阅读全文
posted @ 2017-11-04 10:33 soyosuyang 阅读(1733) 评论(0) 推荐(0)
摘要:错误一: 错误处理:将IDEA中的Scala 改为2.10.4版本 这个问题主要出现在 Spark程序使用 case class 类时 错误二: 错误处理:将IDEA中的Scala 改为2.12.3版本 这个问题主要出现在 Spark程序使用 Seq时: 比如: 阅读全文
posted @ 2017-11-02 16:26 soyosuyang 阅读(2330) 评论(0) 推荐(0)
摘要:特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。 特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsup 阅读全文
posted @ 2017-11-01 14:08 soyosuyang 阅读(332) 评论(0) 推荐(0)
摘要:VectorIndexer: 倘若所有特征都已经被组织在一个向量中,又想对其中某些单个分量进行处理时,Spark ML提供了VectorIndexer类来解决向量数据集中的类别性特征转换。 通过为其提供maxCategories超参数,它可以自动识别哪些特征是类别型的,并且将原始值转换为类别索引。它 阅读全文
posted @ 2017-10-31 21:32 soyosuyang 阅读(458) 评论(0) 推荐(0)
摘要:一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。 阅读全文
posted @ 2017-10-31 20:46 soyosuyang 阅读(4129) 评论(0) 推荐(0)
摘要:结果: + + + +| id|label|label_index|+ + + +| 0| log| 0.0|| 1| text| 1.0|| 2| text| 1.0|| 3| soyo| 2.0|| 4| text| 1.0|| 5| log| 0.0|| 6| log| 0.0|| 7| lo 阅读全文
posted @ 2017-10-31 19:11 soyosuyang 阅读(1066) 评论(0) 推荐(0)
摘要:结果: logtextsoyo+ + + +|id |type|type_index|+ + + +|0 |log |0.0 ||1 |text|1.0 ||2 |text|1.0 ||3 |soyo|2.0 ||4 |text|1.0 ||5 |log |0.0 ||6 |log |0.0 ||7 阅读全文
posted @ 2017-10-31 11:03 soyosuyang 阅读(1773) 评论(0) 推荐(0)
摘要:结果: 8sparksoyo+ + + +|id |words |features |+ + + +|0 |[soyo, spark, soyo2, soyo, 8] |(3,[0,1,2],[1.0,1.0,2.0])||1 |[soyo, hadoop, soyo, hadoop, xiaozh 阅读全文
posted @ 2017-10-28 20:57 soyosuyang 阅读(1142) 评论(0) 推荐(0)
摘要:package Spark_MLlib import org.apache.spark.ml.feature.Word2Vec import org.apache.spark.sql.SparkSession object 特征抽取_Word2Vec { val spark=SparkSession.builder().master("local").appName("Word... 阅读全文
posted @ 2017-10-28 14:53 soyosuyang 阅读(1371) 评论(0) 推荐(0)
摘要:结果: + + +|label|features |+ + +|0 |(1000,[105,107,181,330,333],[2.5541281188299534,0.5108256237659907,0.9162907318741551,1.0216512475319814,0.91629073 阅读全文
posted @ 2017-10-24 19:50 soyosuyang 阅读(978) 评论(0) 推荐(0)
摘要:概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会 阅读全文
posted @ 2017-10-24 16:16 soyosuyang 阅读(281) 评论(0) 推荐(0)