摘要:
Apache Kafka is optimized for small messages. According to benchmarks, the best performance occurs with 1 KB messages. Larger messages (for example, 1
阅读全文
posted @ 2018-05-25 16:53
大数据从业者FelixZh
阅读(575)
推荐(0)
摘要:
To achieve high availability and consistency targets, adjust the following parameters to meet your requirements: Replication Factor Preferred Leader E
阅读全文
posted @ 2018-05-25 16:52
大数据从业者FelixZh
阅读(413)
推荐(0)
摘要:
This topic describes additional steps you can take to ensure the safety and integrity of your data stored in Apache Kafka, with features available in
阅读全文
posted @ 2018-05-25 16:50
大数据从业者FelixZh
阅读(814)
推荐(0)
摘要:
I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi
阅读全文
posted @ 2018-05-25 16:33
大数据从业者FelixZh
阅读(588)
推荐(0)
摘要:
如果某个broker挂了,leader副本在该broker上的分区就要重新进行leader选举。来简要描述下leader选举的过程 1.4.1 KafkaController会监听ZooKeeper的/brokers/ids节点路径,一旦发现有broker挂了,执行下面的逻辑。这里暂时先不考虑Kaf
阅读全文
posted @ 2018-05-25 16:02
大数据从业者FelixZh
阅读(2165)
推荐(0)
摘要:
消费端出现offset重置为latest, earliest现象,类似log: 原因:该consumer消费的topic的leader和followers的状态不一致时,发生leader切换,会发生offset out of range,此时consumer进行消费时发现offset非法,会进行of
阅读全文
posted @ 2018-05-25 15:20
大数据从业者FelixZh
阅读(3877)
推荐(0)
摘要:
MapReduce简介 在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图: 更详细的MapReduc
阅读全文
posted @ 2018-05-25 15:03
大数据从业者FelixZh
阅读(1083)
推荐(1)
摘要:
Cloudera recently announced formal support for Apache Kafka. This simple use case illustrates how to make web log analysis, powered in part by Kafka,
阅读全文
posted @ 2018-05-25 14:32
大数据从业者FelixZh
阅读(510)
推荐(0)
摘要:
The new integration between Flume and Kafka offers sub-second-latency event processing without the need for dedicated infrastructure. In this previous
阅读全文
posted @ 2018-05-25 14:26
大数据从业者FelixZh
阅读(691)
推荐(0)
摘要:
The versatility of Apache Spark’s API for both batch/ETL and streaming workloads brings the promise of lambda architecture to the real world. Few thin
阅读全文
posted @ 2018-05-25 14:17
大数据从业者FelixZh
阅读(385)
推荐(0)
摘要:
http://www.cnblogs.com/xuliangxing/p/7151812.html 本文对Redis的过期机制简单的讲解一下 讲解之前我们先抛出一个问题,我们知道很多时候服务器经常会用到redis作为缓存,有很多数据都是临时缓存一下,可能用过之后很久都不会再用到了(比如暂存sessi
阅读全文
posted @ 2018-05-25 09:15
大数据从业者FelixZh
阅读(2962)
推荐(0)
摘要:
May 10, 2018By Suhita GoswamiNo Comments Categories: Data Ingestion Flume Kafka Use Case Traditional messaging models fall into two categories: Shared
阅读全文
posted @ 2018-05-24 13:17
大数据从业者FelixZh
阅读(411)
推荐(0)
摘要:
https://blog.csdn.net/zzq900503/article/details/52982828 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8。CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也
阅读全文
posted @ 2018-05-24 12:56
大数据从业者FelixZh
阅读(7622)
推荐(0)
摘要:
ZooKeeper Dynamic Reconfiguration Overview Changes to Configuration Format Specifying the client port The standaloneEnabled flag The reconfigEnabled f
阅读全文
posted @ 2018-05-21 15:26
大数据从业者FelixZh
阅读(1416)
推荐(0)
posted @ 2018-05-18 15:21
大数据从业者FelixZh
阅读(1009)
推荐(0)
摘要:
1. NTP时钟同步方式说明NTP在linux下有两种时钟同步方式,分别为直接同步和平滑同步: 直接同步 使用ntpdate命令进行同步,直接进行时间变更。如果服务器上存在一个12点运行的任务,当前服务器时间是13点,但标准时间时11点,使用此命令可能会造成任务重复执行。因此使用ntpdate同步可
阅读全文
posted @ 2018-05-18 11:00
大数据从业者FelixZh
阅读(1033)
推荐(0)
摘要:
服务器 : 192.168.137.3 客户机: 192.168.137.6 1、 服务器端 centos7下首先确认服务器的防火墙、selinux关闭状态 # cat /etc/redhat-release CentOS Linux release 7.0.1406 (Core) 第一步 为服务器
阅读全文
posted @ 2018-05-18 10:57
大数据从业者FelixZh
阅读(3436)
推荐(0)
摘要:
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionS
阅读全文
posted @ 2018-05-18 09:55
大数据从业者FelixZh
阅读(466)
推荐(0)
摘要:
内核与操作系统 由于一些商业操作系统设计上的缺陷以及日益庞杂,“操作系统”的概念对很多人而言变得含糊不清。在进一步讨论Linux内核的话题前,我们先区分“内核”与“操作系统”这两个概念。 操作系统:指在整个系统中完成最基本功能和系统管理的部分,包括内核、设备驱动、文件管理工具、系统管理工具、shel
阅读全文
posted @ 2018-05-16 19:32
大数据从业者FelixZh
阅读(874)
推荐(0)
摘要:
库文件 先从我们熟悉的c库入手,理解系统调用(system call)。c代码中调用printf函数,经历了以下调用过程: 最终输出的功能由内核中write调用完成,c库封装了系统调用。 对于以下hello world程序: 我们可以使用ldd查看程序依赖的库文件: 输出结果中显示了hello程序依
阅读全文
posted @ 2018-05-16 19:31
大数据从业者FelixZh
阅读(477)
推荐(0)
摘要:
调度器完成以下任务: 时钟中断(或类似的定时器)时间内刷新进程的时间片,设置进程调度标志 系统调用返回或中断完成时检查调度标志 schedule函数 内核代码中完成进程调度的函数为schedule(),该函数中包含以下调用: put_prev_task(rq, prev); next = pick_
阅读全文
posted @ 2018-05-16 19:31
大数据从业者FelixZh
阅读(743)
推荐(0)
摘要:
cpu与磁盘、网卡、键盘等外围设备(相对于cpu和内存而言)交互时,cpu下发I/O请求到这些设备后,相对cpu的处理能力而言,磁盘、网卡等设备需要较长时间完成请求处理。 那么在请求发出到处理完成这段时间,应如何设定cpu的行为,既能让这期间运行的其他程序得到执行,又能在外设处理完成后,cpu及时获
阅读全文
posted @ 2018-05-16 19:29
大数据从业者FelixZh
阅读(639)
推荐(0)
摘要:
内核同步 内核同步解决并发带来的问题,多个线程对同一数据进行修改,数据会出现不一致的情况,同步用于保护共享数据等资源。 有两种形式的并发: 访问共享数据的那部分代码被称为临界区。 原子操作 不可打断的操作为原子操作,一条汇编指令不可被中断,其为原子操作。在内核代码中,我们可以看到类似atomic64
阅读全文
posted @ 2018-05-16 19:26
大数据从业者FelixZh
阅读(1293)
推荐(0)
摘要:
内核中时钟主要完成以下作用: 记录系统运行时间 完成时间相关的统计功能,如cpu占用率等 定时功能,设定某个进程一段时间后完成某项任务 为实现以上功能,硬件以及内核提供了不同类型的时钟。 RTC 实时时钟(real time clock,RTC),又叫硬件时钟、墙上时钟。RTC记录的是00:00:0
阅读全文
posted @ 2018-05-16 19:24
大数据从业者FelixZh
阅读(1177)
推荐(0)
摘要:
vfs(the virtual filesystem, virtual file switch)为应用程序访问文件提供了统一的接口,如read、write、open等。 下面我们看加载文件系统模块、格式化磁盘、挂载磁盘,这些步骤相应的内核实现,vfs在其中又发挥了哪些作用。 文件系统在内核中由fil
阅读全文
posted @ 2018-05-16 19:16
大数据从业者FelixZh
阅读(764)
推荐(0)
摘要:
https://blog.csdn.net/zhangskd/article/details/50529254 Github地址:https://github.com/fastos/tcpdive 为什么要开发Tcpdive 在过去的几年里,随着移动互联网的飞速发展,整个基础网络已经发生了翻天覆地的
阅读全文
posted @ 2018-05-16 18:13
大数据从业者FelixZh
阅读(1807)
推荐(0)
摘要:
这里对负载均衡概念和nginx负载均衡实现方式做一个总结: 先说一下负载均衡的概念: Load Balance负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。 我们知道单台服务器的性能是有上限的,当流量很大时,就需要使用多台服务器来共同提供服务,这就是所谓的集群。 负载均衡服
阅读全文
posted @ 2018-05-16 17:22
大数据从业者FelixZh
阅读(17622)
推荐(0)
摘要:
Linux下TCP/IP及内核参数优化有多种方式,参数配置得当可以大大提高系统的性能,也可以根据特定场景进行专门的优化,如TIME_WAIT过高,DDOS攻击等等。如下配置是写在sysctl.conf中,可使用sysctl -p生效,相关参数仅供参考,具体数值还需要根据机器性能,应用场景等实际情况来
阅读全文
posted @ 2018-05-16 16:37
大数据从业者FelixZh
阅读(797)
推荐(0)
摘要:
Sets the maximum allowed size of the client request body, specified in the “Content-Length” request header field. If the size in a request exceeds the
阅读全文
posted @ 2018-05-15 16:07
大数据从业者FelixZh
阅读(574)
推荐(0)
摘要:
docker container内运行的进程,在宿主机上,通过ps也是能够查到的,但是在不熟悉命令的时候,无法快速找到他们的关系。 这里科普一个基础命令 docker top 1. 找到容器的id docker ps 2. 找到容器在宿主机上映射后的进程信息 docker top 9b40a74ce
阅读全文
posted @ 2018-05-15 14:02
大数据从业者FelixZh
阅读(6125)
推荐(0)