随笔分类 - 大数据面试准备
摘要:转自:http://www.iteblog.com/archives/1183Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么在内部实现Spark和Hadoop作业模型都一样吗?答案是不对的。 熟悉Hadoop的人应该都知道,用户先编写好一个程...
阅读全文
摘要:转自: http://www.csdn.net/article/2015-06-21/2825011 摘要:眼下大数据领域最热门的词汇之一便是流计算了,而其中最耀眼的无疑是来自Spark社区的SparkStreaming项目。 对于流计算而言,最核心的特点毫无疑问就是它对低时的需求,但这也带来了相关
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/8255958==是什么==目标Scope(解决什么问题)在大规模的特定数据集上的迭代运算或重复查询检索官方定义aMapReduce-like cluster computing framework d...
阅读全文
摘要:科普Spark,Spark是什么,如何使用Spark(1)转自:http://www.aboutyun.com/thread-6849-1-1.html阅读本文章可以带着下面问题:1.Spark基于什么算法的分布式计算(很简单)2.Spark与MapReduce不同在什么地方3.Spark为什么比H...
阅读全文
摘要:转自:http://www.dataguru.cn/thread-341168-1-1.html 流式实时分布式计算系统在互联网公司占有举足轻重的地位,尤其在在线和近线的海量数据处理上。而处理这些海量数据的,就是实时流式计算系统。Spark是实时计算的系统,支持流式计算,批处理和实时查询。除了...
阅读全文
摘要:转自:http://xumingming.sinaapp.com/127/twitter-storm如何保证消息不丢失/ storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的,以及我们使用者怎么做才能充分利用storm的可靠性特点。 就如同蝴蝶
阅读全文
摘要:转自:http://www.aboutyun.com/thread-8917-1-1.html问题导读1.什么是flume2.flume的官方网站在哪里?3.flume有哪些术语?4.如何配置flume数据源码? 一、什么是Flume? flume 作为 cloudera 开发的实时日志收集系统...
阅读全文
摘要:(要让集群正常工作至少需要3个主节点,在这里我们要创建6个redis节点,其中三个为主节点,三个为从节点,对应的redis节点的ip和端口对应关系如下)192.168.1.160:7000192.168.1.160:7001192.168.1.160:7002192.168.1.160:700319...
阅读全文
摘要:转自:http://sctrack.360doc1.net/track/click/eyJ1c2VyX2lkIjogMzkwMjIsICJ0YXNrX2lkIjogIiIsICJlbWFpbF9pZCI6ICIxNDUyNzgzODgwNDI4XzM5MDIyXzI5NTM3XzE0OTkuc2Mt...
阅读全文
摘要:转自:http://www.cnblogs.com/fxjwind/archive/2011/12/10/2283344.html首先谈谈为什么需要NoSQL?这儿看到一篇blog说的不错http://robbin.iteye.com/blog/524977, 摘录一下首先是面对Web2.0网站, ...
阅读全文
摘要:1:es中的分页 一般搜索引擎中的分页都不会提供很大的页面查询,因为查询的页码越大,查询效率越低。 例子: 我们就先预想一下我们在搜索一个拥有5个主分片的索引。当我们请求第一页搜索的时 候,每个分片产生自己前十名,然后将它们返回给请求节点,然后这个节点会将50条 ...
阅读全文
摘要:转自:http://my.oschina.net/crxy/blog/422287?p=1Es查询的时候默认是随机从一些分片中查询数据,可以通过配置让es从某些分片中查询数据1:_local指查询操作会优先在本地节点有的分片中查询,没有的话再在其它节点查询。2:_primary:指查询只在主分片中查...
阅读全文
摘要:转自:http://blog.sina.com.cn/s/blog_4a1f59bf01018apd.html附hbase如何创建二级索引以及创建二级索引实例:http://www.aboutyun.com/thread-8857-1-1.html华为二级索引(原理):http://my.oschi...
阅读全文
摘要:1:solr中的时间问题 solr中显示的时间默认会比我们本机时间少八个小时,因为时区不一样。 在solr的web页面查看会发现时间少八个小时。 但是使用java代码操作的时候是整成的的,所以在这只需要知道sorl有这个现象就可以了。 可以给这个时间字段添加默认值。添加default字段即可 ...
阅读全文
摘要:转自:http://www.cnblogs.com/fxjwind/p/3806404.html之前对这个的理解有些问题,今天用到有仔细梳理了一遍,记录一下首先开启storm tracker机制的前提是,1. 在spout emit tuple的时候,要加上第3个参数messageid2. 在配置中...
阅读全文
摘要:转自:http://www.cnblogs.com/fxjwind/p/4689607.html背景相对于传统的Hadoop这样的batch分析平台,流式分析的优点就是实时性, 即可以在秒级别延迟上得到分析结果 。当然缺点是, 很难保证强一致性,即Exactly-Once语义 (在海量数据的前提下,...
阅读全文
摘要:转自:http://www.cnblogs.com/fxjwind/p/3810740.html?utm_source=tuicool&utm_medium=referral附kafka consumer防止数据丢失:http://www.fwqtg.net/kafka-consumer%E9%98...
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/8444283==是什么==目标Scope(解决什么问题)为分布式系统提供高可靠性的协同工作机制官方定义ZooKeeper is acentralized service for maintaining...
阅读全文
摘要:转自:http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架,支持10,000+节点规模的Hadoop集群,支持更灵活的编程模型==核心思想==固定的编程模型,单点的资源调度和任务管理方式,使得Hadoop ...
阅读全文
摘要:转自:http://my.oschina.net/frankwu/blog/355298采集层主要可以使用Flume, Kafka两种技术。Flume:Flume是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.Kafka:Kafka是一个可持久化的分布式的消息队列。Kafka是...
阅读全文

浙公网安备 33010602011771号