随笔分类 -  hadoop/spark/storm

摘要:SparkStreaming-提交到集群运行 阅读全文
posted @ 2018-01-11 13:15 junneyang 阅读(983) 评论(0) 推荐(0)
摘要:SparkStreaming-CPU资源设置的蹊跷、 阅读全文
posted @ 2018-01-11 13:14 junneyang 阅读(339) 评论(0) 推荐(0)
摘要:Kafka Stream-Spark Streaming-Storm流式计算框架比较选型 Kafka Stream-Spark Streaming-Storm流式计算框架比较选型 elasticsearch-headElasticsearch-sql clientNLPchina/elasticse 阅读全文
posted @ 2018-01-11 10:56 junneyang 阅读(1333) 评论(0) 推荐(0)
摘要:大数据处理-Lambda架构-Kappa架构 阅读全文
posted @ 2018-01-11 10:55 junneyang 阅读(2239) 评论(0) 推荐(0)
摘要:大数据-实时统计分析-方案对比选型 BI报表-实时数据分析-方案对比-参考资料 阅读全文
posted @ 2018-01-11 10:53 junneyang 阅读(2999) 评论(0) 推荐(0)
摘要:SparkStreaming-流处理-规则动态更新-解决方案 阅读全文
posted @ 2018-01-11 10:52 junneyang 阅读(2828) 评论(0) 推荐(0)
摘要:大数据匹配-算法 阅读全文
posted @ 2018-01-11 10:44 junneyang 阅读(3692) 评论(0) 推荐(0)
摘要:Scala学习资料 阅读全文
posted @ 2018-01-11 10:25 junneyang 阅读(463) 评论(0) 推荐(0)
摘要:Storm Storm 1 基本概念 1 基本概念 1.1 分布式、可扩展、高容错、实时流处理、跨语言 1.1 分布式、可扩展、高容错、实时流处理、跨语言 1.2 应用场景 1.2 应用场景 1.2.1 实时分析 1.2.1 实时分析 1.2.2 在线机器学习 1.2.2 在线机器学习 1.2.3 阅读全文
posted @ 2017-10-24 15:18 junneyang 阅读(257) 评论(0) 推荐(0)
摘要:HBASE HBASE 1 简介 1 简介 1.1 官网 1.1 官网 1.1.1 http://hbase.apache.org/ 1.1.1 http://hbase.apache.org/ 1.1.2 Apache HBase™ is the Hadoop database, a distri 阅读全文
posted @ 2017-10-23 16:44 junneyang 阅读(255) 评论(0) 推荐(0)
摘要:问题提出: 众所周知,Hadoop框架使用Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用) 目标: Mapreduce中的Combiner就是为了避免 阅读全文
posted @ 2017-10-18 11:37 junneyang 阅读(596) 评论(0) 推荐(0)
摘要:转自:Mapreduce多进程与spark多线程 Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型, 阅读全文
posted @ 2017-10-17 16:17 junneyang 阅读(967) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2016-10-20 13:04 junneyang 阅读(776) 评论(0) 推荐(0)
摘要:一、HIVE概览小结 二、HIVE安装 三、HIVE基础 四、HIVE SQL 五、HIVE 自定义函数 阅读全文
posted @ 2016-09-22 15:38 junneyang 阅读(379) 评论(0) 推荐(0)
摘要:4 HQL 4 HQL 4.1 官网 4.1 官网 4.1.1 https://cwiki.apache.org/confluence/display/Hive/LanguageManual 4.1.1 https://cwiki.apache.org/confluence/display/Hive 阅读全文
posted @ 2016-09-22 15:00 junneyang 阅读(891) 评论(0) 推荐(0)
摘要:3 使用 3 使用 3.1 数据导入 3.1 数据导入 3.1.1 可以使用命令行导入,也可以直接上传到HDFS的特定目录 3.1.1 可以使用命令行导入,也可以直接上传到HDFS的特定目录 3.1.2 格式问题 3.1.2 格式问题 3.1.2.1 缺失/不合法字段默认值为NULL 3.1.2.1 阅读全文
posted @ 2016-09-22 13:24 junneyang 阅读(285) 评论(0) 推荐(0)
摘要:参考资料: drill 官网:http://drill.apache.org/ drill安装使用:https://segmentfault.com/a/1190000002652348 drill简介:http://www.csdn.net/article/2012-08-20/2808871 S 阅读全文
posted @ 2016-09-22 09:36 junneyang 阅读(2348) 评论(0) 推荐(0)
摘要:2 安装 2 安装 2.1 参考 2.1 参考 2.1.1 下载 2.1.1 下载 2.1.1.1 https://mirrors.tuna.tsinghua.edu.cn/apache/hive/stable-2/ 2.1.1.1 https://mirrors.tuna.tsinghua.edu 阅读全文
posted @ 2016-09-21 09:01 junneyang 阅读(515) 评论(0) 推荐(0)
摘要:eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案 - Apache Eagle ,该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集成机器学习对用户行为建立Profile以实现实时智 阅读全文
posted @ 2016-09-18 16:43 junneyang 阅读(2723) 评论(1) 推荐(0)
摘要:Hive架构: Hive基础 Hive基础 1 概念 1 概念 1.1 简介 1.1 简介 1.1.1 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。--OLAP 1.1.1 阅读全文
posted @ 2016-09-14 11:27 junneyang 阅读(545) 评论(0) 推荐(0)