摘要: 阅读全文
posted @ 2019-05-19 00:43 Arthur-Lance 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-05-15 23:46 Arthur-Lance 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 如图: 阅读全文
posted @ 2019-05-12 12:34 Arthur-Lance 阅读(158) 评论(0) 推荐(0) 编辑
摘要: Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFile("file:///Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh 阅读全文
posted @ 2019-04-15 22:49 Arthur-Lance 阅读(747) 评论(0) 推荐(0) 编辑
摘要: 1.类型 2.压缩比 阅读全文
posted @ 2019-04-14 18:19 Arthur-Lance 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度4) 阅读全文
posted @ 2019-04-12 22:48 Arthur-Lance 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 数据处理流程1)数据采集 Flume: web日志写入到HDFS 2)数据清洗 脏数据 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架 清洗完之后的数据可以存放在HDFS(Hive/Spark SQL) 3)数据处理 按照我们的需要进行相应业务的统计和分析 Spark、Hi 阅读全文
posted @ 2019-03-30 22:11 Arthur-Lance 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-03-30 19:07 Arthur-Lance 阅读(788) 评论(0) 推荐(0) 编辑
摘要: 操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").o 阅读全文
posted @ 2019-03-30 18:09 Arthur-Lance 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 处理parquet数据 RuntimeException: file:/Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json is not a Parquet file 阅读全文
posted @ 2019-03-30 18:08 Arthur-Lance 阅读(543) 评论(0) 推荐(0) 编辑