随笔分类 -  大数据

摘要:spark提供了web-ui接口、外部命令等多种方法监视spark程序的执行状态。利用spark的监视功能,可以方便的查看spark应用程序执行的状态,具体包括:1)stage和tasks列表信息 2)RDD大小和内存使用情况 3)环境信息 4)executors信息。 1.web-ui 接口 可以 阅读全文
posted @ 2018-04-21 21:21 南宫轩诺 阅读(3380) 评论(0) 推荐(1)
摘要:以前在进行搜索引擎rank-svm排序模型训练时,直接使用python读取的HDFS日志文件、统计计算等预处理操作再进行svm模型,最终产生出训练模型。现在回想一下,数据预处理这一块完全可以使用spark进行,而且看起来更“正规一点”和高大上,并借机接触一下大数据。pyspark的安装折腾了一上午, 阅读全文
posted @ 2018-04-05 11:46 南宫轩诺 阅读(1018) 评论(0) 推荐(0)