大数据面试准备 - 随笔分类(第2页) - 五三中

Spark和Hadoop作业之间的区别

摘要：转自：http://www.iteblog.com/archives/1183Spark目前被越来越多的企业使用，和Hadoop一样，Spark也是以作业的形式向集群提交任务，那么在内部实现Spark和Hadoop作业模型都一样吗？答案是不对的。熟悉Hadoop的人应该都知道，用户先编写好一个程... 阅读全文

posted @ 2016-01-21 12:55 五三中阅读(1423) 评论(0) 推荐(0)

论SparkStreaming的数据可靠性和一致性

摘要：转自： http://www.csdn.net/article/2015-06-21/2825011 摘要：眼下大数据领域最热门的词汇之一便是流计算了，而其中最耀眼的无疑是来自Spark社区的SparkStreaming项目。对于流计算而言，最核心的特点毫无疑问就是它对低时的需求，但这也带来了相关阅读全文

posted @ 2016-01-19 15:01 五三中阅读(1758) 评论(0) 推荐(0)

Spark 快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8255958==是什么==目标Scope（解决什么问题）在大规模的特定数据集上的迭代运算或重复查询检索官方定义aMapReduce-like cluster computing framework d... 阅读全文

posted @ 2016-01-19 00:40 五三中阅读(788) 评论(0) 推荐(0)

科普Spark，Spark核心是什么，如何使用Spark（1）

摘要：科普Spark，Spark是什么，如何使用Spark（1）转自：http://www.aboutyun.com/thread-6849-1-1.html阅读本文章可以带着下面问题：1.Spark基于什么算法的分布式计算（很简单）2.Spark与MapReduce不同在什么地方3.Spark为什么比H... 阅读全文

posted @ 2016-01-18 11:48 五三中阅读(2191) 评论(0) 推荐(0)

从Storm和Spark 学习流式实时分布式计算的设计

摘要：转自：http://www.dataguru.cn/thread-341168-1-1.html 流式实时分布式计算系统在互联网公司占有举足轻重的地位，尤其在在线和近线的海量数据处理上。而处理这些海量数据的，就是实时流式计算系统。Spark是实时计算的系统，支持流式计算，批处理和实时查询。除了... 阅读全文

posted @ 2016-01-16 22:53 五三中阅读(3575) 评论(0) 推荐(0)

Twitter Storm如何保证消息不丢失

摘要：转自：http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/ storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的，以及我们使用者怎么做才能充分利用storm的可靠性特点。就如同蝴蝶阅读全文

posted @ 2016-01-16 19:58 五三中阅读(777) 评论(0) 推荐(0)

Flume1.5.0入门：安装、部署、及flume的案例

摘要：转自：http://www.aboutyun.com/thread-8917-1-1.html问题导读1.什么是flume2.flume的官方网站在哪里？3.flume有哪些术语？4.如何配置flume数据源码？一、什么是Flume? flume 作为 cloudera 开发的实时日志收集系统... 阅读全文

posted @ 2016-01-15 20:25 五三中阅读(525) 评论(0) 推荐(0)

redis集群配置

摘要：（要让集群正常工作至少需要3个主节点，在这里我们要创建6个redis节点，其中三个为主节点，三个为从节点，对应的redis节点的ip和端口对应关系如下）192.168.1.160:7000192.168.1.160:7001192.168.1.160:7002192.168.1.160:700319... 阅读全文

posted @ 2016-01-15 00:17 五三中阅读(688) 评论(0) 推荐(0)

分布式与集群的区别

摘要：转自：http://sctrack.360doc1.net/track/click/eyJ1c2VyX2lkIjogMzkwMjIsICJ0YXNrX2lkIjogIiIsICJlbWFpbF9pZCI6ICIxNDUyNzgzODgwNDI4XzM5MDIyXzI5NTM3XzE0OTkuc2Mt... 阅读全文

posted @ 2016-01-14 23:09 五三中阅读(2395) 评论(0) 推荐(0)

NoSQL and Redis

摘要：转自：http://www.cnblogs.com/fxjwind/archive/2011/12/10/2283344.html首先谈谈为什么需要NoSQL?这儿看到一篇blog说的不错http://robbin.iteye.com/blog/524977, 摘录一下首先是面对Web2.0网站, ... 阅读全文

posted @ 2016-01-14 00:48 五三中阅读(676) 评论(0) 推荐(0)

ES学习2

摘要：1:es中的分页一般搜索引擎中的分页都不会提供很大的页面查询，因为查询的页码越大，查询效率越低。例子：我们就先预想一下我们在搜索一个拥有5个主分片的索引。当我们请求第一页搜索的时候，每个分片产生自己前十名，然后将它们返回给请求节点，然后这个节点会将50条 ... 阅读全文

posted @ 2016-01-13 22:53 五三中阅读(1367) 评论(0) 推荐(0)

修改ES分片规则

摘要：转自：http://my.oschina.net/crxy/blog/422287?p=1Es查询的时候默认是随机从一些分片中查询数据，可以通过配置让es从某些分片中查询数据1：_local指查询操作会优先在本地节点有的分片中查询，没有的话再在其它节点查询。2：_primary：指查询只在主分片中查... 阅读全文

posted @ 2016-01-13 22:42 五三中阅读(9251) 评论(0) 推荐(0)

HBase二级索引方案总结

摘要：转自：http://blog.sina.com.cn/s/blog_4a1f59bf01018apd.html附hbase如何创建二级索引以及创建二级索引实例：http://www.aboutyun.com/thread-8857-1-1.html华为二级索引（原理）：http://my.oschi... 阅读全文

posted @ 2016-01-12 22:28 五三中阅读(15074) 评论(0) 推荐(0)

solr学习2

摘要：1：solr中的时间问题 solr中显示的时间默认会比我们本机时间少八个小时，因为时区不一样。在solr的web页面查看会发现时间少八个小时。但是使用java代码操作的时候是整成的的，所以在这只需要知道sorl有这个现象就可以了。可以给这个时间字段添加默认值。添加default字段即可 ... 阅读全文

posted @ 2016-01-12 21:29 五三中阅读(860) 评论(0) 推荐(0)

Storm ack和fail机制再论

摘要：转自：http://www.cnblogs.com/fxjwind/p/3806404.html之前对这个的理解有些问题，今天用到有仔细梳理了一遍，记录一下首先开启storm tracker机制的前提是，1. 在spout emit tuple的时候，要加上第3个参数messageid2. 在配置中... 阅读全文

posted @ 2016-01-12 16:20 五三中阅读(1173) 评论(0) 推荐(0)

如何保障流式处理的数据一致性

摘要：转自：http://www.cnblogs.com/fxjwind/p/4689607.html背景相对于传统的Hadoop这样的batch分析平台，流式分析的优点就是实时性，即可以在秒级别延迟上得到分析结果。当然缺点是, 很难保证强一致性，即Exactly-Once语义（在海量数据的前提下，... 阅读全文

posted @ 2016-01-12 16:07 五三中阅读(1315) 评论(0) 推荐(0)

Kafka可靠性的思考

摘要：转自：http://www.cnblogs.com/fxjwind/p/3810740.html?utm_source=tuicool&utm_medium=referral附kafka consumer防止数据丢失：http://www.fwqtg.net/kafka-consumer%E9%98... 阅读全文

posted @ 2016-01-12 16:01 五三中阅读(2435) 评论(0) 推荐(0)

Zookeeper 快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8444283==是什么==目标Scope（解决什么问题）为分布式系统提供高可靠性的协同工作机制官方定义ZooKeeper is acentralized service for maintaining... 阅读全文

posted @ 2016-01-12 15:58 五三中阅读(253) 评论(0) 推荐(0)

YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

摘要：转自：http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架，支持10,000+节点规模的Hadoop集群，支持更灵活的编程模型==核心思想==固定的编程模型，单点的资源调度和任务管理方式，使得Hadoop ... 阅读全文

posted @ 2016-01-12 15:55 五三中阅读(387) 评论(0) 推荐(0)

【采集层】Kafka 与 Flume 如何选择

摘要：转自：http://my.oschina.net/frankwu/blog/355298采集层主要可以使用Flume, Kafka两种技术。Flume：Flume是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.Kafka：Kafka是一个可持久化的分布式的消息队列。Kafka是... 阅读全文

posted @ 2016-01-12 15:52 五三中阅读(639) 评论(0) 推荐(0)

cxzdy

随笔分类 - 大数据面试准备

公告