摘要:
Spark 中进行一些单元测试技巧:最近刚写了一点Spark上的单元测试,大概整理了一些 rdd测试 spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所以尽可能先本地进行单元测试,以减少在集群上运行时错误,特别是map等 阅读全文
posted @ 2019-06-29 20:58
大葱拌豆腐
阅读(3303)
评论(0)
推荐(0)
摘要:
一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线 阅读全文
posted @ 2019-06-29 14:30
大葱拌豆腐
阅读(1268)
评论(0)
推荐(0)
浙公网安备 33010602011771号