上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 32 下一页
摘要: Apache Kafka is optimized for small messages. According to benchmarks, the best performance occurs with 1 KB messages. Larger messages (for example, 1 阅读全文
posted @ 2018-05-25 16:53 大数据从业者FelixZh 阅读(575) 评论(0) 推荐(0)
摘要: To achieve high availability and consistency targets, adjust the following parameters to meet your requirements: Replication Factor Preferred Leader E 阅读全文
posted @ 2018-05-25 16:52 大数据从业者FelixZh 阅读(413) 评论(0) 推荐(0)
摘要: This topic describes additional steps you can take to ensure the safety and integrity of your data stored in Apache Kafka, with features available in 阅读全文
posted @ 2018-05-25 16:50 大数据从业者FelixZh 阅读(814) 评论(0) 推荐(0)
摘要: I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文
posted @ 2018-05-25 16:33 大数据从业者FelixZh 阅读(588) 评论(0) 推荐(0)
摘要: 如果某个broker挂了,leader副本在该broker上的分区就要重新进行leader选举。来简要描述下leader选举的过程 1.4.1 KafkaController会监听ZooKeeper的/brokers/ids节点路径,一旦发现有broker挂了,执行下面的逻辑。这里暂时先不考虑Kaf 阅读全文
posted @ 2018-05-25 16:02 大数据从业者FelixZh 阅读(2165) 评论(1) 推荐(0)
摘要: 消费端出现offset重置为latest, earliest现象,类似log: 原因:该consumer消费的topic的leader和followers的状态不一致时,发生leader切换,会发生offset out of range,此时consumer进行消费时发现offset非法,会进行of 阅读全文
posted @ 2018-05-25 15:20 大数据从业者FelixZh 阅读(3877) 评论(0) 推荐(0)
摘要: MapReduce简介 在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图: 更详细的MapReduc 阅读全文
posted @ 2018-05-25 15:03 大数据从业者FelixZh 阅读(1083) 评论(0) 推荐(1)
摘要: Cloudera recently announced formal support for Apache Kafka. This simple use case illustrates how to make web log analysis, powered in part by Kafka, 阅读全文
posted @ 2018-05-25 14:32 大数据从业者FelixZh 阅读(510) 评论(0) 推荐(0)
摘要: The new integration between Flume and Kafka offers sub-second-latency event processing without the need for dedicated infrastructure. In this previous 阅读全文
posted @ 2018-05-25 14:26 大数据从业者FelixZh 阅读(691) 评论(0) 推荐(0)
摘要: The versatility of Apache Spark’s API for both batch/ETL and streaming workloads brings the promise of lambda architecture to the real world. Few thin 阅读全文
posted @ 2018-05-25 14:17 大数据从业者FelixZh 阅读(385) 评论(0) 推荐(0)
摘要: http://www.cnblogs.com/xuliangxing/p/7151812.html 本文对Redis的过期机制简单的讲解一下 讲解之前我们先抛出一个问题,我们知道很多时候服务器经常会用到redis作为缓存,有很多数据都是临时缓存一下,可能用过之后很久都不会再用到了(比如暂存sessi 阅读全文
posted @ 2018-05-25 09:15 大数据从业者FelixZh 阅读(2962) 评论(0) 推荐(0)
摘要: May 10, 2018By Suhita GoswamiNo Comments Categories: Data Ingestion Flume Kafka Use Case Traditional messaging models fall into two categories: Shared 阅读全文
posted @ 2018-05-24 13:17 大数据从业者FelixZh 阅读(411) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/zzq900503/article/details/52982828 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来安装CDH5.8。CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也 阅读全文
posted @ 2018-05-24 12:56 大数据从业者FelixZh 阅读(7622) 评论(5) 推荐(0)
摘要: ZooKeeper Dynamic Reconfiguration Overview Changes to Configuration Format Specifying the client port The standaloneEnabled flag The reconfigEnabled f 阅读全文
posted @ 2018-05-21 15:26 大数据从业者FelixZh 阅读(1416) 评论(0) 推荐(0)
摘要: 磁盘空间不足: 阅读全文
posted @ 2018-05-18 15:21 大数据从业者FelixZh 阅读(1009) 评论(0) 推荐(0)
摘要: 1. NTP时钟同步方式说明NTP在linux下有两种时钟同步方式,分别为直接同步和平滑同步: 直接同步 使用ntpdate命令进行同步,直接进行时间变更。如果服务器上存在一个12点运行的任务,当前服务器时间是13点,但标准时间时11点,使用此命令可能会造成任务重复执行。因此使用ntpdate同步可 阅读全文
posted @ 2018-05-18 11:00 大数据从业者FelixZh 阅读(1033) 评论(0) 推荐(0)
摘要: 服务器 : 192.168.137.3 客户机: 192.168.137.6 1、 服务器端 centos7下首先确认服务器的防火墙、selinux关闭状态 # cat /etc/redhat-release CentOS Linux release 7.0.1406 (Core) 第一步 为服务器 阅读全文
posted @ 2018-05-18 10:57 大数据从业者FelixZh 阅读(3436) 评论(0) 推荐(0)
摘要: 因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionS 阅读全文
posted @ 2018-05-18 09:55 大数据从业者FelixZh 阅读(466) 评论(0) 推荐(0)
摘要: 内核与操作系统 由于一些商业操作系统设计上的缺陷以及日益庞杂,“操作系统”的概念对很多人而言变得含糊不清。在进一步讨论Linux内核的话题前,我们先区分“内核”与“操作系统”这两个概念。 操作系统:指在整个系统中完成最基本功能和系统管理的部分,包括内核、设备驱动、文件管理工具、系统管理工具、shel 阅读全文
posted @ 2018-05-16 19:32 大数据从业者FelixZh 阅读(874) 评论(0) 推荐(0)
摘要: 库文件 先从我们熟悉的c库入手,理解系统调用(system call)。c代码中调用printf函数,经历了以下调用过程: 最终输出的功能由内核中write调用完成,c库封装了系统调用。 对于以下hello world程序: 我们可以使用ldd查看程序依赖的库文件: 输出结果中显示了hello程序依 阅读全文
posted @ 2018-05-16 19:31 大数据从业者FelixZh 阅读(477) 评论(0) 推荐(0)
摘要: 调度器完成以下任务: 时钟中断(或类似的定时器)时间内刷新进程的时间片,设置进程调度标志 系统调用返回或中断完成时检查调度标志 schedule函数 内核代码中完成进程调度的函数为schedule(),该函数中包含以下调用: put_prev_task(rq, prev); next = pick_ 阅读全文
posted @ 2018-05-16 19:31 大数据从业者FelixZh 阅读(743) 评论(0) 推荐(0)
摘要: cpu与磁盘、网卡、键盘等外围设备(相对于cpu和内存而言)交互时,cpu下发I/O请求到这些设备后,相对cpu的处理能力而言,磁盘、网卡等设备需要较长时间完成请求处理。 那么在请求发出到处理完成这段时间,应如何设定cpu的行为,既能让这期间运行的其他程序得到执行,又能在外设处理完成后,cpu及时获 阅读全文
posted @ 2018-05-16 19:29 大数据从业者FelixZh 阅读(639) 评论(0) 推荐(0)
摘要: 内核同步 内核同步解决并发带来的问题,多个线程对同一数据进行修改,数据会出现不一致的情况,同步用于保护共享数据等资源。 有两种形式的并发: 访问共享数据的那部分代码被称为临界区。 原子操作 不可打断的操作为原子操作,一条汇编指令不可被中断,其为原子操作。在内核代码中,我们可以看到类似atomic64 阅读全文
posted @ 2018-05-16 19:26 大数据从业者FelixZh 阅读(1293) 评论(0) 推荐(0)
摘要: 内核中时钟主要完成以下作用: 记录系统运行时间 完成时间相关的统计功能,如cpu占用率等 定时功能,设定某个进程一段时间后完成某项任务 为实现以上功能,硬件以及内核提供了不同类型的时钟。 RTC 实时时钟(real time clock,RTC),又叫硬件时钟、墙上时钟。RTC记录的是00:00:0 阅读全文
posted @ 2018-05-16 19:24 大数据从业者FelixZh 阅读(1177) 评论(0) 推荐(0)
摘要: vfs(the virtual filesystem, virtual file switch)为应用程序访问文件提供了统一的接口,如read、write、open等。 下面我们看加载文件系统模块、格式化磁盘、挂载磁盘,这些步骤相应的内核实现,vfs在其中又发挥了哪些作用。 文件系统在内核中由fil 阅读全文
posted @ 2018-05-16 19:16 大数据从业者FelixZh 阅读(764) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/zhangskd/article/details/50529254 Github地址:https://github.com/fastos/tcpdive 为什么要开发Tcpdive 在过去的几年里,随着移动互联网的飞速发展,整个基础网络已经发生了翻天覆地的 阅读全文
posted @ 2018-05-16 18:13 大数据从业者FelixZh 阅读(1807) 评论(0) 推荐(0)
摘要: 这里对负载均衡概念和nginx负载均衡实现方式做一个总结: 先说一下负载均衡的概念: Load Balance负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。 我们知道单台服务器的性能是有上限的,当流量很大时,就需要使用多台服务器来共同提供服务,这就是所谓的集群。 负载均衡服 阅读全文
posted @ 2018-05-16 17:22 大数据从业者FelixZh 阅读(17622) 评论(0) 推荐(0)
摘要: Linux下TCP/IP及内核参数优化有多种方式,参数配置得当可以大大提高系统的性能,也可以根据特定场景进行专门的优化,如TIME_WAIT过高,DDOS攻击等等。如下配置是写在sysctl.conf中,可使用sysctl -p生效,相关参数仅供参考,具体数值还需要根据机器性能,应用场景等实际情况来 阅读全文
posted @ 2018-05-16 16:37 大数据从业者FelixZh 阅读(797) 评论(0) 推荐(0)
摘要: Sets the maximum allowed size of the client request body, specified in the “Content-Length” request header field. If the size in a request exceeds the 阅读全文
posted @ 2018-05-15 16:07 大数据从业者FelixZh 阅读(574) 评论(0) 推荐(0)
摘要: docker container内运行的进程,在宿主机上,通过ps也是能够查到的,但是在不熟悉命令的时候,无法快速找到他们的关系。 这里科普一个基础命令 docker top 1. 找到容器的id docker ps 2. 找到容器在宿主机上映射后的进程信息 docker top 9b40a74ce 阅读全文
posted @ 2018-05-15 14:02 大数据从业者FelixZh 阅读(6125) 评论(0) 推荐(0)
上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 32 下一页
大数据从业者