摘要:
在机器学习中分为监督学习和无监督学习。其中聚类算法就是无监督学习。聚类算法就是根据某种相似性将相似的样本划分为一个类型。比如,最简单的k-mean算法的相似规则就是空间中的位置,两个样本点空间中位置越接近表示越相似。 K-means算法 在Spark mllib中实现了k-mean和k-mean++ 阅读全文
posted @ 2023-02-13 22:38
青山新雨
阅读(43)
评论(0)
推荐(0)
摘要:
概述 降维是减少所考虑的变量的数量,它可以从原始和杂乱特征中提取潜在特征或者说价值更高的特征,能够在压缩数据的大小的时候尽量不影响算法的结果。 奇异分解(SVD) 给出一篇比较好的博客:https://www.cnblogs.com/pinard/p/6251584.html 在Spark mlli 阅读全文
posted @ 2023-02-13 22:38
青山新雨
阅读(20)
评论(0)
推荐(0)
摘要:
TF-IDF TF-IDF的算法步骤: TF(词频)=$\farc{某个词在该文章出现的次数}{该文章的总词数}$ IDF(逆文档频率)=$log(\frac{语料库的文档总数}{包含该词的文档数+1})$,分母加1是为了不让等于0. TF-IDF=TF*IDF 可以看出计算出的每个词的TF-IDF 阅读全文
posted @ 2023-02-13 22:38
青山新雨
阅读(20)
评论(0)
推荐(0)
摘要:
FP-growth 可调参数: minSupport:被识别为频繁项集的最小支持度。例如,如果一个项目在 5 个事务中出现 3 个,则它的支持率为 3/5=0.6。 numPartitions: 用于分发工作的分区数。 阅读全文
posted @ 2023-02-13 22:38
青山新雨
阅读(19)
评论(0)
推荐(0)
摘要:
分类与回归 | 问题类型 | 解决方法 | | | | | 二元分类 | 线性SVM,逻辑回归,决策树,随机森林,梯度提升树,朴素贝叶斯 | | 多元分类 | 逻辑回归,决策树,随机森林,朴素贝叶斯 | | 回归问题 | 线性最小二乘法,套索,岭回归,决策树,随机森林,梯度提升树,等渗回归 | 线性 阅读全文
posted @ 2023-02-13 22:35
青山新雨
阅读(110)
评论(0)
推荐(0)
摘要:
概述 Spark MLlib分为基于RDD的API和基于**DataStream的API,**其中基于RDD的API是MLlib的主要API。数据类型 MLlib支持存储在一台机器上的本地向量和矩阵,以及由一个或多个 RDD 支持的分布式矩阵。本地向量和本地矩阵用于公共接口的简单数据。 本地矢量 M 阅读全文
posted @ 2023-02-13 22:35
青山新雨
阅读(133)
评论(0)
推荐(0)
摘要:
将相同国家进行分组,然后将count相加sum(count), 对sum(count)进行排序,输出top5 val path="/Volumes/Data/BigData_code/data/flight-data/csv/2015-summary.csv" val data = spark.re 阅读全文
posted @ 2023-02-13 22:33
青山新雨
阅读(24)
评论(0)
推荐(0)
摘要:
聚合操作 注意:任何的聚合操作都有默认的分组,聚合是在分组的基础上进行的。比如,对整体进行求和,那么分组就是整体。所以,在做聚合操作之前,一定要明确是在哪个分组上进行聚合操作 注意:聚合操作,本质上是一个多对一(一对一是多对一的特殊情况)的操作。特别注意的是这个’一‘,可以是一个值(mean, su 阅读全文
posted @ 2023-02-13 22:33
青山新雨
阅读(356)
评论(0)
推荐(0)
摘要:
val path="/Volumes/Data/BigData_code/data/retail-data/by-day/2010-12-01.csv" spark.read.format("csv").option("header", "true").option("inferSchema", " 阅读全文
posted @ 2023-02-13 22:33
青山新雨
阅读(122)
评论(0)
推荐(0)
摘要:
读时模式 val path="/Volumes/Data/BigData_code/data/" //读取json生成dataframe val df = spark.read.format("json").load(path + "flight-data/json/2015-summary.jso 阅读全文
posted @ 2023-02-13 22:33
青山新雨
阅读(307)
评论(0)
推荐(0)

浙公网安备 33010602011771号