1.19总结

1．安装 Hadoop 和 Spark
进入 Linux 系统，参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”，完
成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后，再安装 Spark（Local 模式）。
2．HDFS 常用操作
使用 hadoop 用户名登录进入 Linux 系统，启动 Hadoop，参照相关 Hadoop 书籍或网络
资料，或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”，
使用 Hadoop 提供的 Shell 命令完成如下操作：
（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；

超参数调优
利用 CrossValidator 确定最优的参数，包括最优主成分 PCA 的维数、分类器自身的参数
等。

val pca = new PCA().setInputCol("features").setOutputCol("pcaFeatures")

val featureIndexer = new
VectorIndexer().setInputCol("pcaFeatures").setOutputCol("indexedFeatures")
val labelConverter = new
IndexToString().setInputCol("prediction").setOutputCol("predictedLabel").setLabels(labelIndexer.l
abels)
val lr = new
LogisticRegression().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setMaxIter(1
00)
val lrPipeline = new Pipeline().setStages(Array(pca, labelIndexer, featureIndexer, lr,
labelConverter))
val paramGrid = new ParamGridBuilder().addGrid(pca.k,
Array(1,2,3,4,5,6)).addGrid(lr.elasticNetParam, Array(0.2,0.8)).addGrid(lr.regParam, Array(0.01,
0.1, 0.5)).build()

posted @ 2024-01-19 15:27 奉禾阅读(10) 评论(0) 收藏举报

刷新页面返回顶部

织云等待中...

FZhiYun'Blogs

封织云

1.19总结

公告