随笔分类 - 大数据开发
摘要:格式:<REST Verb>/<Index>/<Type>/<ID> 集群健康:curl -u lases:1fw@2soc#3vpn -XGET 'localhost:9200/_cat/health?v&pretty' 节点:curl -u lases:1fw@2soc#3vpn -XGET '
阅读全文
摘要:启动nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties &nohup ./bin/kafka-server-start.sh config/server.properties & 创建topickafka-topics.
阅读全文
摘要:1.Flume简介: Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data。 2.Fl
阅读全文
posted @ 2018-04-11 15:13
_fred
摘要:1. 避免重复加载RDD 比如一份从HDFS中加载的数据 val rdd1 = sc.textFile("hdfs://url:port/test.txt"),这个test.txt只应该在你的程序中被加载一次,避免多次加载造成的性能开销。 2. 重复使用的RDD需要被缓存 Spark有数据持久化的几
阅读全文
摘要:一.核心概念: Kafka是一个分布式消息中间件,以集群的方式运行,可以由多个服务组成,每个服务叫做一个broker Kafka中每条消息是由一个key,一个value和时间戳构成。 Kafka会对其数据分区,每个分区都由一系列有序的、不可变的消息组成,这些消息被连续的追加到分区中。每个消息都有一个
阅读全文
摘要:1.介绍 爬虫采集了大量的文本数据,如何进行去重?可以使用文本计算MD5,然后与已经抓取下来的MD5集合进行比较,但这种做法有个问题,文本稍有不同MD5值都会大相径庭, 无法处理文本相似问题。另一种方式是本文要介绍的SimHash,这是谷歌提出的一种局部敏感哈希算法,在吴军老师的《数学之美》里也有介
阅读全文
摘要:HDFS由三个基本组件组成:NameNode,SecondaryName,DataNode,其思想类似于Linux的文件系统,可以进行类比。 1.NameNode介绍: 1.管理整个文件系统的命名空间,内部维护了命名树。 2.存储元数据:文件层级关系,文件所有者及权限,每个文件由哪些文件块组成(但元
阅读全文
摘要:内容整理自组内分享PPT 一.概述 ZooKeeper 遵循一个简单的客户端-服务器模型,其中客户端 是使用服务的节点(即机器),而服务器 是提供服务的节点。ZooKeeper 服务器的集合形成了一个 ZooKeeper 集合体(ensemble)。在任何给定的时间内,一个 ZooKeeper 客户
阅读全文
posted @ 2018-03-20 11:41
_fred

浙公网安备 33010602011771号