摘要:
数据处理流程1)数据采集 Flume: web日志写入到HDFS 2)数据清洗 脏数据 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架 清洗完之后的数据可以存放在HDFS(Hive/Spark SQL) 3)数据处理 按照我们的需要进行相应业务的统计和分析 Spark、Hi 阅读全文
posted @ 2019-03-30 22:11
Arthur-Lance
阅读(854)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2019-03-30 19:07
Arthur-Lance
阅读(807)
评论(0)
推荐(0)
摘要:
操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").o 阅读全文
posted @ 2019-03-30 18:09
Arthur-Lance
阅读(487)
评论(0)
推荐(0)
摘要:
处理parquet数据 RuntimeException: file:/Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json is not a Parquet file 阅读全文
posted @ 2019-03-30 18:08
Arthur-Lance
阅读(579)
评论(0)
推荐(0)
摘要:
DataFrame和RDD互操作的两种方式:1)反射:case class 前提:事先需要知道你的字段、字段类型 2)编程:Row 如果第一种情况不能满足你的要求(事先不知道列)3) 选型:优先考虑第一种 阅读全文
posted @ 2019-03-30 13:55
Arthur-Lance
阅读(324)
评论(0)
推荐(0)
摘要:
RDD里面Person看不到具体的内容哦,DataFrame可以看到name age height, 这样,DataFrame就可以做更多的优化。 RDD: java/scala ==> jvm python ==> python runtime DataFrame: java/scala/pyth 阅读全文
posted @ 2019-03-30 13:15
Arthur-Lance
阅读(197)
评论(0)
推荐(0)

浙公网安备 33010602011771号