hadoop/spark/storm - 随笔分类(第3页) - junneyang

摘要：SparkStreaming-提交到集群运行阅读全文

posted @ 2018-01-11 13:15 junneyang 阅读(983) 评论(0) 推荐(0)

摘要：SparkStreaming-CPU资源设置的蹊跷、阅读全文

posted @ 2018-01-11 13:14 junneyang 阅读(339) 评论(0) 推荐(0)

【流处理】Kafka Stream-Spark Streaming-Storm流式计算框架比较选型

摘要：Kafka Stream-Spark Streaming-Storm流式计算框架比较选型 Kafka Stream-Spark Streaming-Storm流式计算框架比较选型 elasticsearch-headElasticsearch-sql clientNLPchina/elasticse 阅读全文

posted @ 2018-01-11 10:56 junneyang 阅读(1333) 评论(0) 推荐(0)

【大数据】大数据处理-Lambda架构-Kappa架构

摘要：大数据处理-Lambda架构-Kappa架构阅读全文

posted @ 2018-01-11 10:55 junneyang 阅读(2239) 评论(0) 推荐(0)

【大数据】大数据-实时统计分析-方案选型

摘要：大数据-实时统计分析-方案对比选型 BI报表-实时数据分析-方案对比-参考资料阅读全文

posted @ 2018-01-11 10:53 junneyang 阅读(2999) 评论(0) 推荐(0)

【Spark】SparkStreaming-流处理-规则动态更新-解决方案

摘要：SparkStreaming-流处理-规则动态更新-解决方案阅读全文

posted @ 2018-01-11 10:52 junneyang 阅读(2828) 评论(0) 推荐(0)

【算法】如何设计--高效的大数据匹配算法

摘要：大数据匹配-算法阅读全文

posted @ 2018-01-11 10:44 junneyang 阅读(3692) 评论(0) 推荐(0)

【Scala】Scala学习资料

摘要：Scala学习资料阅读全文

posted @ 2018-01-11 10:25 junneyang 阅读(463) 评论(0) 推荐(0)

【Storm】学习笔记

摘要：Storm Storm 1 基本概念 1 基本概念 1.1 分布式、可扩展、高容错、实时流处理、跨语言 1.1 分布式、可扩展、高容错、实时流处理、跨语言 1.2 应用场景 1.2 应用场景 1.2.1 实时分析 1.2.1 实时分析 1.2.2 在线机器学习 1.2.2 在线机器学习 1.2.3 阅读全文

posted @ 2017-10-24 15:18 junneyang 阅读(257) 评论(0) 推荐(0)

【HBase】学习笔记

摘要：HBASE HBASE 1 简介 1 简介 1.1 官网 1.1 官网 1.1.1 http://hbase.apache.org/ 1.1.1 http://hbase.apache.org/ 1.1.2 Apache HBase™ is the Hadoop database, a distri 阅读全文

posted @ 2017-10-23 16:44 junneyang 阅读(255) 评论(0) 推荐(0)

【Hadoop】Combiner的本质是迷你的reducer，不能随意使用

摘要：问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个<key,value>键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）目标： Mapreduce中的Combiner就是为了避免阅读全文

posted @ 2017-10-18 11:37 junneyang 阅读(596) 评论(0) 推荐(0)

【Hadoop】mapreduce采用多进程与spark采用多线程比较

摘要：转自：Mapreduce多进程与spark多线程 Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver 端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，阅读全文

posted @ 2017-10-17 16:17 junneyang 阅读(967) 评论(0) 推荐(0)

【Hadoop】史上最全 Hadoop 生态全景图

摘要：阅读全文

posted @ 2016-10-20 13:04 junneyang 阅读(776) 评论(0) 推荐(0)

【Hadoop】HIVE 小结概览

摘要：一、HIVE概览小结二、HIVE安装三、HIVE基础四、HIVE SQL 五、HIVE 自定义函数阅读全文

posted @ 2016-09-22 15:38 junneyang 阅读(379) 评论(0) 推荐(0)

【Hadoop】Hive HSQ 使用 && 自定义HQL函数

摘要：4 HQL 4 HQL 4.1 官网 4.1 官网 4.1.1 https://cwiki.apache.org/confluence/display/Hive/LanguageManual 4.1.1 https://cwiki.apache.org/confluence/display/Hive 阅读全文

posted @ 2016-09-22 15:00 junneyang 阅读(891) 评论(0) 推荐(0)

【Hadoop】HIVE 数据表使用

摘要：3 使用 3 使用 3.1 数据导入 3.1 数据导入 3.1.1 可以使用命令行导入，也可以直接上传到HDFS的特定目录 3.1.1 可以使用命令行导入，也可以直接上传到HDFS的特定目录 3.1.2 格式问题 3.1.2 格式问题 3.1.2.1 缺失/不合法字段默认值为NULL 3.1.2.1 阅读全文

posted @ 2016-09-22 13:24 junneyang 阅读(285) 评论(0) 推荐(0)

【Hadoop】Flink VS Spark？Drill VS Presto？

摘要：参考资料： drill 官网：http://drill.apache.org/ drill安装使用：https://segmentfault.com/a/1190000002652348 drill简介：http://www.csdn.net/article/2012-08-20/2808871 S 阅读全文

posted @ 2016-09-22 09:36 junneyang 阅读(2348) 评论(0) 推荐(0)

【Hive】Hive 安装&使用基础

摘要：2 安装 2 安装 2.1 参考 2.1 参考 2.1.1 下载 2.1.1 下载 2.1.1.1 https://mirrors.tuna.tsinghua.edu.cn/apache/hive/stable-2/ 2.1.1.1 https://mirrors.tuna.tsinghua.edu 阅读全文

posted @ 2016-09-21 09:01 junneyang 阅读(515) 评论(0) 推荐(0)

【Hadoop】Apache Eagle 简介--分布式实时 Hadoop 数据安全方案

摘要：eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案－ Apache Eagle ，该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎，具有高实时、可伸缩、易扩展、交互友好等特点，同时集成机器学习对用户行为建立Profile以实现实时智阅读全文

posted @ 2016-09-18 16:43 junneyang 阅读(2723) 评论(1) 推荐(0)

【Hive】Hive 基础

摘要：Hive架构： Hive基础 Hive基础 1 概念 1 概念 1.1 简介 1.1 简介 1.1.1 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。--OLAP 1.1.1 阅读全文

posted @ 2016-09-14 11:27 junneyang 阅读(545) 评论(0) 推荐(0)

junneyang 的博客

随笔分类 - hadoop/spark/storm

公告