随笔分类 -  大数据开发

摘要:格式:<REST Verb>/<Index>/<Type>/<ID> 集群健康:curl -u lases:1fw@2soc#3vpn -XGET 'localhost:9200/_cat/health?v&pretty' 节点:curl -u lases:1fw@2soc#3vpn -XGET ' 阅读全文
posted @ 2018-10-26 14:15 _fred 阅读(526) 评论(0) 推荐(0)
摘要:启动nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties &nohup ./bin/kafka-server-start.sh config/server.properties & 创建topickafka-topics. 阅读全文
posted @ 2018-10-26 14:10 _fred 阅读(456) 评论(0) 推荐(0)
摘要:1.Flume简介: Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data。 2.Fl 阅读全文
posted @ 2018-04-11 15:13 _fred
摘要:1. 避免重复加载RDD 比如一份从HDFS中加载的数据 val rdd1 = sc.textFile("hdfs://url:port/test.txt"),这个test.txt只应该在你的程序中被加载一次,避免多次加载造成的性能开销。 2. 重复使用的RDD需要被缓存 Spark有数据持久化的几 阅读全文
posted @ 2018-04-04 11:11 _fred 阅读(1059) 评论(0) 推荐(0)
摘要:一.核心概念: Kafka是一个分布式消息中间件,以集群的方式运行,可以由多个服务组成,每个服务叫做一个broker Kafka中每条消息是由一个key,一个value和时间戳构成。 Kafka会对其数据分区,每个分区都由一系列有序的、不可变的消息组成,这些消息被连续的追加到分区中。每个消息都有一个 阅读全文
posted @ 2018-04-02 10:47 _fred 阅读(193) 评论(0) 推荐(0)
摘要:1.介绍 爬虫采集了大量的文本数据,如何进行去重?可以使用文本计算MD5,然后与已经抓取下来的MD5集合进行比较,但这种做法有个问题,文本稍有不同MD5值都会大相径庭, 无法处理文本相似问题。另一种方式是本文要介绍的SimHash,这是谷歌提出的一种局部敏感哈希算法,在吴军老师的《数学之美》里也有介 阅读全文
posted @ 2018-03-21 14:14 _fred 阅读(3579) 评论(1) 推荐(0)
摘要:HDFS由三个基本组件组成:NameNode,SecondaryName,DataNode,其思想类似于Linux的文件系统,可以进行类比。 1.NameNode介绍: 1.管理整个文件系统的命名空间,内部维护了命名树。 2.存储元数据:文件层级关系,文件所有者及权限,每个文件由哪些文件块组成(但元 阅读全文
posted @ 2018-03-20 16:14 _fred 阅读(461) 评论(0) 推荐(1)
摘要:内容整理自组内分享PPT 一.概述 ZooKeeper 遵循一个简单的客户端-服务器模型,其中客户端 是使用服务的节点(即机器),而服务器 是提供服务的节点。ZooKeeper 服务器的集合形成了一个 ZooKeeper 集合体(ensemble)。在任何给定的时间内,一个 ZooKeeper 客户 阅读全文
posted @ 2018-03-20 11:41 _fred