摘要: 数据处理流程1)数据采集 Flume: web日志写入到HDFS 2)数据清洗 脏数据 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架 清洗完之后的数据可以存放在HDFS(Hive/Spark SQL) 3)数据处理 按照我们的需要进行相应业务的统计和分析 Spark、Hi 阅读全文
posted @ 2019-03-30 22:11 Arthur-Lance 阅读(854) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-03-30 19:07 Arthur-Lance 阅读(807) 评论(0) 推荐(0)
摘要: 操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").o 阅读全文
posted @ 2019-03-30 18:09 Arthur-Lance 阅读(487) 评论(0) 推荐(0)
摘要: 处理parquet数据 RuntimeException: file:/Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json is not a Parquet file 阅读全文
posted @ 2019-03-30 18:08 Arthur-Lance 阅读(579) 评论(0) 推荐(0)
摘要: DataFrame和RDD互操作的两种方式:1)反射:case class 前提:事先需要知道你的字段、字段类型 2)编程:Row 如果第一种情况不能满足你的要求(事先不知道列)3) 选型:优先考虑第一种 阅读全文
posted @ 2019-03-30 13:55 Arthur-Lance 阅读(324) 评论(0) 推荐(0)
摘要: RDD里面Person看不到具体的内容哦,DataFrame可以看到name age height, 这样,DataFrame就可以做更多的优化。 RDD: java/scala ==> jvm python ==> python runtime DataFrame: java/scala/pyth 阅读全文
posted @ 2019-03-30 13:15 Arthur-Lance 阅读(197) 评论(0) 推荐(0)