2017年8月21日

Storm vs. Spark Streaming

摘要: Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。 处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。 Storm可以实现正真流式实时的处理数据,例如每次处理一条消息,这样,延迟就可以控制在秒 阅读全文

posted @ 2017-08-21 10:00 juneW 阅读(193) 评论(0) 推荐(0)

2017年7月28日

csv数据导入hive数据库

摘要: 为了方便大数据量的csv数据处理,可以将数据导入到hive中进行处理。 具体步骤: 1.检查csv数据格式,去掉一些不需要的字符 不如“”等符号不需要在hive中显示的,可以使用sed去掉 如: sed -i 's/"//g' *.csv 2.将数据导入到hdfs中 创建所需hdfs目录并将数据pu 阅读全文

posted @ 2017-07-28 10:57 juneW 阅读(966) 评论(0) 推荐(0)

导航