随笔分类 - spark
摘要:1 背景 在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是很难的,因为作业是提交到yarn的集群上,所以,去yarn集群上看日志是很麻烦的,但是又需要看print的信息,方便调试或者别的目的。 Spark日志确切的存放路径和
阅读全文
摘要:1 简述 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。 2 创建PairRDD 2.1 在sprk中,很多存储键值对的数据在读取时直接返回由其键值对数据组成的PairRDD。 2.2 可以调用map()函数,将一个普通的RDD转换为PairRDD。 sca
阅读全文
摘要:1 简述 spark中的RDD是一个分布式的元素集合。 在spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值,而这些操作,spark会自动将RDD中的数据分发到集群上,并将操作并行执行。 2 创建 RDD 创建RDD分两种:读取外部数据集,在程序中对一个集合进行并行
阅读全文

浙公网安备 33010602011771号