大数据从业者FelixZh

2017年12月12日

摘要： Kafka 0.11新功能介绍：空消费组延迟rebalance 在0.11之前的版本中，多个consumer实例加入到一个空消费组将导致多次的rebalance，这是由于每个consumer instance启动的时间不可控，很有可能超出coordinator确定的rebalance timeout 阅读全文

posted @ 2017-12-12 13:33 大数据从业者FelixZh 阅读(1321) 评论(0) 推荐(0)

Apache Curator is a Java/JVM client library for Apache ZooKeeper

摘要： http://curator.apache.org/index.html Welcome to Apache Curator Welcome to Apache Curator What is Curator? What is Curator? Curator n ˈkyoor͝ˌātər: a k 阅读全文

posted @ 2017-12-12 10:35 大数据从业者FelixZh 阅读(370) 评论(0) 推荐(0)

2017年12月7日

Linux：自动删除n天前日志

摘要： linux是一个很能自动产生文件的系统，日志、邮件、备份等。虽然现在硬盘廉价，我们可以有很多硬盘空间供这些文件浪费，让系统定时清理一些不需要的文件很有一种爽快的事情。不用你去每天惦记着是否需要清理日志，不用每天收到硬盘空间不足的报警短信，想好好休息的话，让我们把这个事情交给机器定时去执行吧。 1.删阅读全文

posted @ 2017-12-07 17:14 大数据从业者FelixZh 阅读(4146) 评论(0) 推荐(1)

2017年12月6日

TIPS FOR IMPROVING PERFORMANCE OF KAFKA PRODUCER

摘要： When we are talking about performance of Kafka Producer, we are really talking about two different things: latency: how much time passes from the time 阅读全文

posted @ 2017-12-06 18:57 大数据从业者FelixZh 阅读(572) 评论(0) 推荐(0)

2017年11月24日

Caused by: java.io.FileNotFoundException: velocity.log (No such file or directory)

摘要：问题原因是velocity的日志框架导致（velocity是使用自己封装的日志框架记录日志的），velocity在初始化Logger时，如果没有读取到配置文件，则会使用默认的velocity.log做为文件输出路径，源代码里使用了 File file = new File(“velocity.log 阅读全文

posted @ 2017-11-24 11:31 大数据从业者FelixZh 阅读(1040) 评论(0) 推荐(0)

2017年10月26日

查看linux中的TCP连接数

摘要：一、查看哪些IP连接本机 netstat -an 二、查看TCP连接数 1)统计80端口连接数netstat -nat|grep -i "80"|wc -l2）统计httpd协议连接数ps -ef|grep httpd|wc -l3）、统计已连接上的，状态为“establishednetstat - 阅读全文

posted @ 2017-10-26 15:43 大数据从业者FelixZh 阅读(84901) 评论(2) 推荐(2)

2017年8月25日

kafka-connect-hdfs重启，进去RECOVERY状态，从hadoop hdfs拿租约，很正常，但是也太久了吧

摘要：虽说这个算是正常现象，等的时间也太久了吧。分钟级了。这个RECOVERY里面的WAL有点多余。有这么久的时间，早从新读取kafka写入hdfs了。纯属个人见解。阅读全文

posted @ 2017-08-25 20:06 大数据从业者FelixZh 阅读(1572) 评论(0) 推荐(0)

kafka-connect-hdfs连接hadoop hdfs时候，竟然是单点的，太可怕了。。。果断改成HA

摘要： kafka-connect-hdfs中操作hdfs的HdfsStorage.class中需要做修改当然 url的相应配置得改成hdfs://nameservice/*，因为要HA 啊。不能按照原来的要求了，原来的要求如下：虽然实例化storage时候不用url了，往hive load还是要的。阅读全文

posted @ 2017-08-25 19:58 大数据从业者FelixZh 阅读(1907) 评论(1) 推荐(0)

2017年7月2日

部署tinyproxy代理服务

摘要：修改配置文件一般需要指定用户、用户组、端口、访问IP段，当然这些都有默认值，然后启动程序和测试。关于配置文件的一点补充：出处：　http://www.xiaomastack.com/2016/01/22/tinyproxy/ 阅读全文

posted @ 2017-07-02 15:29 大数据从业者FelixZh 阅读(2001) 评论(0) 推荐(0)

2017年6月27日

Python 进程管理工具 Supervisor 使用教程

摘要： Supervisor 是基于 Python 的进程管理工具，只能运行在 Unix-Like 的系统上，也就是无法运行在 Windows 上。Supervisor 官方版目前只能运行在 Python 2.4 以上版本，但是还无法运行在 Python 3 上，不过已经有一个 Python 3 的移植版阅读全文

posted @ 2017-06-27 13:46 大数据从业者FelixZh 阅读(949) 评论(0) 推荐(0)

如何在linux平台上编译安装zlib软件(公司部分线上机器缺少zlib不能安装supervisor)

摘要：文章在Centos 6.5 linux平台上演示一下如何进行编译安装zlib软件，并配置相关的选项加载使用。示范从下载到安装并配置进行使用过程一系列整套讲解，希望可以给网友考虑使用，谢谢。文章在Centos 6.5 linux平台上演示一下如何进行编译安装zlib软件，并配置相关的选项加载使用。示阅读全文

posted @ 2017-06-27 13:25 大数据从业者FelixZh 阅读(3124) 评论(0) 推荐(0)

2017年6月16日

在win7下python的xlrd和xlwt的安装于应用

摘要： 1. http://pypi.python.org/pypi/xlwt 和http://pypi.python.org/pypi/xlrd下载xlwt-0.7.4.tar.gz和xlrd-0.7.7.tar.gz。 2. 解压，如我把它们解压到F：DOWNLOAD下。 3. cmd,在命令行输入F：阅读全文

posted @ 2017-06-16 16:31 大数据从业者FelixZh 阅读(376) 评论(0) 推荐(0)

2017年4月8日

nginx基本配置与参数说明

摘要： user nobody; #启动进程,通常设置成和cpu的数量相等 worker_processes 1; #全局错误日志及PID文件 #error_log logs/error.log; #error_log logs/error.log notice; #error_log logs/error 阅读全文

posted @ 2017-04-08 11:13 大数据从业者FelixZh 阅读(769) 评论(0) 推荐(0)

2017年3月22日

The type java.lang.Object cannot be resolved. It is indirectly referenced from required .class files

摘要： jdk问题阅读全文

posted @ 2017-03-22 11:25 大数据从业者FelixZh 阅读(447) 评论(0) 推荐(0)

[SetPropertiesRule]{Server/Service/Engine/Host/Context} Setting property 'source' to 'org.eclipse.js

摘要：解决办法：双击server，勾选上【Server Options】里面的【Publish module contexts to separte XML files】，如下图即可。阅读全文

posted @ 2017-03-22 10:49 大数据从业者FelixZh 阅读(264) 评论(0) 推荐(0)

The superclass "javax.servlet.http.HttpServlet" was not found on the Java Build Path

摘要：在出现此错误的项目上单击鼠标右键》Build Path》Configure Build Path 阅读全文

posted @ 2017-03-22 10:39 大数据从业者FelixZh 阅读(270) 评论(0) 推荐(0)

2017年3月20日

数据科学家和大数据计数人员工具包

摘要：阅读全文

posted @ 2017-03-20 08:34 大数据从业者FelixZh 阅读(332) 评论(0) 推荐(0)

2017年3月15日

Cause: net.sf.cglib.beans.BulkBeanException; nested exception is com.ibatis.common.jdbc.exception.NestedSQLException:

摘要： 2017-03-13 15:40:15,003 ERROR [com.hisense.hitv.service.dotexc.impl.DotExcPolicyServiceImpl.updateDotExcPolicy(DotExcPolicyServiceImpl.java:61)] - <or 阅读全文

posted @ 2017-03-15 09:50 大数据从业者FelixZh 阅读(5026) 评论(0) 推荐(0)

2017年3月14日

关于elasticsearch和kibana的时区和日期问题

摘要： elasticsearch原生支持date类型，json格式通过字符来表示date类型。所以在用json提交日期至elasticsearch的时候，es会隐式转换，把es认为是date类型的字符串直接转为date类型。至于什么样的字符串es会认为可以转换成date类型，参考elasticsearch 阅读全文

posted @ 2017-03-14 15:48 大数据从业者FelixZh 阅读(1432) 评论(0) 推荐(0)

2017年2月18日

新浪是如何分析处理32亿条实时日志的？

摘要：服务介绍随着实时分析技术的发展及成本的降低，用户已经不仅仅满足于离线分析。目前我们服务的用户包括微博，微盘，云存储，弹性计算平台等十多个部门的多个产品的日志搜索分析业务，每天处理约32亿条(2TB)日志。技术架构简单介绍一下服务的技术架构：这是一个再常见不过的架构了：（1）Kafka：接收阅读全文

posted @ 2017-02-18 16:41 大数据从业者FelixZh 阅读(2032) 评论(0) 推荐(0)

2017年2月17日

ELK+Kafka 企业日志收集平台(一)

摘要：背景：最近线上上了ELK，但是只用了一台Redis在中间作为消息队列，以减轻前端es集群的压力，Redis的集群解决方案暂时没有接触过，并且Redis作为消息队列并不是它的强项；所以最近将Redis换成了专业的消息信息发布订阅系统Kafka, Kafka的更多介绍大家可以看这里：传送门 ,关于EL 阅读全文

posted @ 2017-02-17 19:37 大数据从业者FelixZh 阅读(2274) 评论(0) 推荐(0)

2017年2月16日

在Eclipse中创建maven项目出现的环境警告 j2se-1.5

摘要： Build path specifies execution environment J2SE-1.5. There are no JREs installed in the workspace that are strictly compatible with this environment. 阅读全文

posted @ 2017-02-16 13:15 大数据从业者FelixZh 阅读(1985) 评论(0) 推荐(0)

Why do Kafka consumers connect to zookeeper, and producers get metadata from brokers?

摘要： Why do Kafka consumers connect to zookeeper, and producers get metadata from brokers? Ask Question Why do Kafka consumers connect to zookeeper, and pr 阅读全文

posted @ 2017-02-16 08:53 大数据从业者FelixZh 阅读(323) 评论(0) 推荐(0)

2017年2月9日

JSONCkecker（Java语言版本）

摘要： // MIT License // // Copyright (c) 2016 Michel Kraemer // Copyright (c) 2005 JSON.org // // Permission is hereby granted, free of charge, to any person obtaining // a copy of this software and associ... 阅读全文

posted @ 2017-02-09 14:18 大数据从业者FelixZh 阅读(417) 评论(0) 推荐(0)

JSONCkecker（C语言版本）

摘要： /* JSON_checker.h */ typedef struct JSON_checker_struct { int valid; int state; int depth; int top; int* stack; } * JSON_checker; extern JSON_checker new_JSON_checker(int depth... 阅读全文

posted @ 2017-02-09 14:16 大数据从业者FelixZh 阅读(414) 评论(0) 推荐(0)

2017年2月6日

spark基础知识

摘要： 1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不阅读全文

posted @ 2017-02-06 18:01 大数据从业者FelixZh 阅读(3749) 评论(0) 推荐(0)

Spark Streaming和Kafka整合保证数据零丢失

摘要：当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件： 1、输入的数据来自可靠的数据源和可靠的接收器； 2、应用程序的metadata被application的driver持久化了(ch 阅读全文

posted @ 2017-02-06 17:45 大数据从业者FelixZh 阅读(4416) 评论(1) 推荐(1)

2017年2月5日

吴恩达教你如何学习机器学习

摘要：阅读全文

posted @ 2017-02-05 14:47 大数据从业者FelixZh 阅读(698) 评论(0) 推荐(0)

yum使用问题：Repodata is over 2 weeks old. Install yum-cron? Or run: yum makecache fast

摘要： yum update 阅读全文

posted @ 2017-02-05 09:29 大数据从业者FelixZh 阅读(5983) 评论(1) 推荐(0)

2017年1月18日

cxf整合spring错误为：cvc-complex-type.2.4.c

摘要： cxf整合spring，报错信息如下： Multiple annotations found at this line:- cvc-complex-type.2.4.c: The matching wildcard is strict, but no declaration can be found 阅读全文

posted @ 2017-01-18 17:31 大数据从业者FelixZh 阅读(1173) 评论(0) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告