大数据开发 - 随笔分类 - _fred

ES常用操作备忘

摘要：格式：<REST Verb>/<Index>/<Type>/<ID> 集群健康：curl -u lases:1fw@2soc#3vpn -XGET 'localhost:9200/_cat/health?v&pretty' 节点：curl -u lases:1fw@2soc#3vpn -XGET ' 阅读全文

posted @ 2018-10-26 14:15 _fred 阅读(526) 评论(0) 推荐(0)

Kafka常用操作备忘

摘要：启动nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties &nohup ./bin/kafka-server-start.sh config/server.properties & 创建topickafka-topics. 阅读全文

posted @ 2018-10-26 14:10 _fred 阅读(456) 评论(0) 推荐(0)

Flume概览

摘要：1.Flume简介： Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data。 2.Fl 阅读全文

posted @ 2018-04-11 15:13 _fred

Spark性能优化总结

摘要：1. 避免重复加载RDD 比如一份从HDFS中加载的数据 val rdd1 = sc.textFile("hdfs://url:port/test.txt")，这个test.txt只应该在你的程序中被加载一次，避免多次加载造成的性能开销。 2. 重复使用的RDD需要被缓存 Spark有数据持久化的几阅读全文

posted @ 2018-04-04 11:11 _fred 阅读(1059) 评论(0) 推荐(0)

Kafka学习笔记

摘要：一.核心概念： Kafka是一个分布式消息中间件，以集群的方式运行，可以由多个服务组成，每个服务叫做一个broker Kafka中每条消息是由一个key，一个value和时间戳构成。 Kafka会对其数据分区，每个分区都由一系列有序的、不可变的消息组成，这些消息被连续的追加到分区中。每个消息都有一个阅读全文

posted @ 2018-04-02 10:47 _fred 阅读(193) 评论(0) 推荐(0)

文本查重算法SimHash

摘要：1.介绍爬虫采集了大量的文本数据，如何进行去重？可以使用文本计算MD5，然后与已经抓取下来的MD5集合进行比较，但这种做法有个问题，文本稍有不同MD5值都会大相径庭，无法处理文本相似问题。另一种方式是本文要介绍的SimHash，这是谷歌提出的一种局部敏感哈希算法，在吴军老师的《数学之美》里也有介阅读全文

posted @ 2018-03-21 14:14 _fred 阅读(3579) 评论(1) 推荐(0)

HDFS基本原理总结

摘要：HDFS由三个基本组件组成：NameNode,SecondaryName,DataNode，其思想类似于Linux的文件系统，可以进行类比。 1.NameNode介绍: 1.管理整个文件系统的命名空间，内部维护了命名树。 2.存储元数据：文件层级关系，文件所有者及权限，每个文件由哪些文件块组成(但元阅读全文

posted @ 2018-03-20 16:14 _fred 阅读(461) 评论(0) 推荐(1)

Zookeeper技术分享

摘要：内容整理自组内分享PPT 一.概述 ZooKeeper 遵循一个简单的客户端-服务器模型，其中客户端是使用服务的节点（即机器），而服务器是提供服务的节点。ZooKeeper 服务器的集合形成了一个 ZooKeeper 集合体（ensemble）。在任何给定的时间内，一个 ZooKeeper 客户阅读全文

posted @ 2018-03-20 11:41 _fred

_fred

随笔分类 - 大数据开发

公告