大数据从业者FelixZh

2018年4月2日

摘要： 1.单播（Unicast） “单播”可以理解为一个人对另外一个人说话，，此时信息的接收和传递只在两个节点之间进行，参见图1。单播的优点： 1）服务器及时响应客户机的请求 2）服务器针对每个客户不通的请求发送不通的数据，容易实现个性化服务。单播的缺点： 1）服务器针对每个客户机发送数据流，服务器流阅读全文

posted @ 2018-04-02 09:45 大数据从业者FelixZh 阅读(3181) 评论(0) 推荐(0)

二层交换机、三层交换机、路由器

摘要：二层交换机与三层交换机区别详解！我们习惯说，在二层网络环境中相同vlan之间可以通信，不同vlan之间不可以通信，如果想通信必须借助三层设备，所以说三层交换机必须要做的事情是路由转发，但是二、三层交换机具体有什么区别呢？二层交换机工作于OSI模型的第2层(数据链路层)，故而称为二层交换机。二层阅读全文

posted @ 2018-04-02 09:13 大数据从业者FelixZh 阅读(2224) 评论(0) 推荐(0)

2018年3月31日

Linux /var/log下的各种日志文件详解

摘要： 1)/var/log/secure：记录登录系统存取数据的文件;例如:pop3，ssh，telnet，ftp等都会记录在此.2)/var/log/wtmp：记录登录这的信息记录，被编码过，所以必须以last解析;例如:lastb | awk '{ print $3}' | sort | uniq - 阅读全文

posted @ 2018-03-31 15:20 大数据从业者FelixZh 阅读(1487) 评论(0) 推荐(0)

报文、帧、数据包等的区别

摘要：报文（message）是网络中交换与传输的数据单元，也是网络传输的单元。报文包含了将要发送的完整的数据信息，其长短不需一致。报文在传输过程中会不断地封装成分组、包、帧来传输，封装的方式就是添加一些控制信息组成的首部，那些就是报文头。应用层：报文（message），一般指完整的信息，传输层实现报文交阅读全文

posted @ 2018-03-31 15:16 大数据从业者FelixZh 阅读(1162) 评论(0) 推荐(0)

2018年3月29日

linux下last与lastb命令详解

摘要：在linux系统中，last与lastb命令用来列出目前与过去登录系统的用户相关信息。指令英文原义： last, lastb - show listing of last logged in users 单独执行last指令时，它会读取位于/var/log/wtmp的文件，并把该给文件的内容记录的登阅读全文

posted @ 2018-03-29 17:34 大数据从业者FelixZh 阅读(4196) 评论(0) 推荐(0)

nginx: worker process is shutting down

摘要：正常情况下，nginx进程状态如下：当修改配置文件，reload之后： PID=17114的wroker有正在处理的连接，等处理结束，该worker就会退出（退出之前，该worker不会处理新的连接）：阅读全文

posted @ 2018-03-29 16:40 大数据从业者FelixZh 阅读(11703) 评论(0) 推荐(0)

2018年3月28日

keepalived 安装篇-个人实践-编译安装

摘要：官网地址：http://www.keepalived.org/官网文档：http://www.keepalived.org/documentation.html Keepalived的作用是检测服务器的状态，如果有一台服务器死机或工作出现故障 Keepalived将检测到，并将有故障的web服务器从阅读全文

posted @ 2018-03-28 10:58 大数据从业者FelixZh 阅读(633) 评论(0) 推荐(0)

keepalived 安装篇-官方文档

摘要：官方安装文档 http://www.keepalived.org/doc/installing_keepalived.html Installing Keepalived Install keepalived from the distribution’s repositories or, alte 阅读全文

posted @ 2018-03-28 10:53 大数据从业者FelixZh 阅读(578) 评论(0) 推荐(0)

2018年3月27日

linux中如何查看进程的启动时间

摘要： ps -p PID -o lstart 其中PID是进程的pid 阅读全文

posted @ 2018-03-27 18:40 大数据从业者FelixZh 阅读(301) 评论(0) 推荐(0)

关于LVS负载均衡tcp长连接分发的解决思路

摘要：虽然应用keepalived搞定了后端服务负载均衡和高可用性问题，但是在具体应用的时候，还是要注意很多问题。很多应用都用tcp或者http的长连接，因为建立tcp连接或者http连接开销比较大，而应用端其实是需要频繁跟server端通讯的，这时候保持长连接无疑是非常合适的。经过摸索lvs & kee 阅读全文

posted @ 2018-03-27 18:29 大数据从业者FelixZh 阅读(6034) 评论(0) 推荐(0)

2018年3月23日

JAVA 多线程环境下的静态方法

摘要：第一：程序运行的时候，JVM内存主要由以下部分组成：所有线程共享一个堆，在 Java 虚拟机中，堆（Heap）是可供各条线程共享的运行时内存区域，也是供所有类实例和数组对象分配内存的区域。 Java 堆在虚拟机启动的时候就被创建，Java垃圾回收管理的主要区域，这些受管理的对象无需，也无法显式地阅读全文

posted @ 2018-03-23 16:21 大数据从业者FelixZh 阅读(709) 评论(0) 推荐(0)

2018年3月19日

MapReduce过程详解及其性能优化

摘要： http://blog.csdn.net/aijiudu/article/details/72353510 废话不说直接来一张图如下：从JVM的角度看Map和Reduce Map阶段包括：第一读数据：从HDFS读取数据 1、问题:读取数据产生多少个Mapper？？ Mapper数据过大的话，会产阅读全文

posted @ 2018-03-19 19:26 大数据从业者FelixZh 阅读(12210) 评论(0) 推荐(1)

ORCFILE IN HDP 2: BETTER COMPRESSION, BETTER PERFORMANCE

摘要： ORCFILE IN HDP 2: BETTER COMPRESSION, BETTER PERFORMANCE by Carter Shanklin by Carter Shanklin The upcoming Hive 0.12 is set to bring some great new a 阅读全文

posted @ 2018-03-19 18:58 大数据从业者FelixZh 阅读(393) 评论(0) 推荐(0)

spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长（计算Partition时间太长）且产出orc单个文件中stripe个数太多问题解决方案

摘要： 1、背景：控制上游文件个数每天7000个，每个文件大小小于256M，50亿条+，orc格式。查看每个文件的stripe个数，500个左右，查询命令：hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11 阅读全文

posted @ 2018-03-19 17:18 大数据从业者FelixZh 阅读(3774) 评论(1) 推荐(0)

Hive-ORC文件存储格式

摘要： ORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档，以及基于官方文档的翻译内容这里就不赘述了，有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major Technical Advancements in Apache Hive》中的内容进行深入的研究。一、ORC文件格阅读全文

posted @ 2018-03-19 16:51 大数据从业者FelixZh 阅读(1788) 评论(0) 推荐(0)

比MR至少快5倍的神器，竟然是它

摘要： Hive简介 Hive是一个基于 Hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它最初是应Facebook对每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的，Hive把海量数据存储于Hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并阅读全文

posted @ 2018-03-19 16:12 大数据从业者FelixZh 阅读(1519) 评论(0) 推荐(0)

Optimizing Hive queries for ORC formatted tables

摘要： Short Description: Hive configuration settings to optimize your HiveQL when querying ORC formatted tables. Short Description: Article SYNOPSIS The Opt 阅读全文

posted @ 2018-03-19 15:09 大数据从业者FelixZh 阅读(418) 评论(0) 推荐(0)

ORC Creation Best Practices

摘要： Short Description: ORC Creation Best Practices with examples and references. Short Description: Article Synopsis. ORC is a columnar storage format for 阅读全文

posted @ 2018-03-19 14:01 大数据从业者FelixZh 阅读(430) 评论(0) 推荐(0)

2018年3月15日

orcFile split和读数据原理总结（hive0.13）

摘要： http://blog.csdn.net/zhaorongsheng/article/details/72903431 官网关于orcfile的介绍背景 Hive的rcfile格式已经使用多年，但是，它会将所有的列都当做二进制来处理，没有与类型挂钩。因此，Hive0.11版本引入orcFile。O 阅读全文

posted @ 2018-03-15 17:54 大数据从业者FelixZh 阅读(3080) 评论(0) 推荐(1)

2018年3月12日

FastJSON、Gson和Jackson性能对比

摘要： Java处理JSON数据有三个比较流行的类库FastJSON、Gson和Jackson。本文将测试这三个类库在JSON序列化和反序列化的方面表现，主要测试JSON序列化和反序列化的速度。为了防止由于内存导致测试结果出现偏差，测试中对JVM内存配置-Xmx4g -Xms4g。 JSON序列化(Obje 阅读全文

posted @ 2018-03-12 20:40 大数据从业者FelixZh 阅读(13187) 评论(0) 推荐(1)

2018年3月8日

【漫画解读】HDFS存储原理

摘要：根据Maneesh Varshney的漫画改编，以简洁易懂的漫画形式讲解HDFS存储机制与运行原理，非常适合Hadoop/HDFS初学者理解。一、角色出演如上图所示，HDFS存储相关角色与功能如下： Client：客户端，系统使用者，调用HDFS API操作文件；与NN交互获取文件元数据；与DN 阅读全文

posted @ 2018-03-08 18:09 大数据从业者FelixZh 阅读(2012) 评论(0) 推荐(0)

hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息(Locations)

摘要：关键字：hdfs fsck、block、locations 在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。 fsck命令必须由HDFS超级用户来执行，普通用户无权限。下面介绍每一个选项的含义及用法。查看文件中损坏的块（-list- 阅读全文

posted @ 2018-03-08 17:54 大数据从业者FelixZh 阅读(6933) 评论(0) 推荐(0)

更高的压缩比，更好的性能–使用ORC文件格式优化Hive

摘要： http://lxw1234.com/archives/2016/04/630.htm 关键字：orc、index、hive Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce来说是可切分（Split）的。阅读全文

posted @ 2018-03-08 17:07 大数据从业者FelixZh 阅读(2639) 评论(0) 推荐(0)

2018年3月7日

InfluxDB基本概念和操作

摘要： InfluxDB基本概念 1、数据格式在 InfluxDB 中，我们可以粗略的将要存入的一条数据看作一个虚拟的 key 和其对应的 value(field value)。格式如下： 1 cpu_usage,host=server01,region=us-west value=0.64 143405 阅读全文

posted @ 2018-03-07 13:00 大数据从业者FelixZh 阅读(3537) 评论(0) 推荐(0)

InfluxDB部署

摘要： InfluxDB介绍官网：https://www.influxdata.com/ 文档：https://docs.influxdata.com/influxdb/v1.2/introduction/ InfluxDB 是用Go语言编写的一个开源分布式时序、事件和指标数据库，无需外部依赖。主要特色阅读全文

posted @ 2018-03-07 12:59 大数据从业者FelixZh 阅读(842) 评论(0) 推荐(0)

2018年2月24日

Zookeeper运维小结--CancelledKeyException

摘要： https://www.jianshu.com/p/73eec030db86 项目中用到storm+kafka+zookeeper，在实际应用中zk和kafka常出问题，这里记录下在使用zk过程中的问题。注：zk版本是3.4.8，kafka是0.8.2.0。zk、storm和kafka都是运行在同阅读全文

posted @ 2018-02-24 12:59 大数据从业者FelixZh 阅读(1547) 评论(0) 推荐(0)

Zookeeper源码编译为Eclipse工程（win7下Ant编译）

摘要：前言 ZooKeeper是雅虎的。用Ant进行软件构建。千里之行，始于足下。想看源码的第一步，是下载源码并导入某个IDE工具。 Ant http://ant.apache.org/ Windows：下载Ant，解压到硬盘，比如C:\Work\apache-ant-1.9.7，在环境变量中增加AN 阅读全文

posted @ 2018-02-24 11:02 大数据从业者FelixZh 阅读(675) 评论(0) 推荐(0)

2018年2月23日

ZooKeeper Observers解决节点过多时写性能下降问题

摘要： ZooKeeper Observers Observers: Scaling ZooKeeper Without Hurting Write Performance How to use Observers Example use cases Observers: Scaling ZooKeeper 阅读全文

posted @ 2018-02-23 17:51 大数据从业者FelixZh 阅读(901) 评论(0) 推荐(0)

ZooKeeper日志与快照文件简单分析

摘要：有用过Zookeeper的都知道zoo.cfg配置文件中有dataDir配置项用于存储数据，不过可能有些人不太清楚这个目录具体存储的是那些数据，默认情况下这个目录是用于存储Log（事务日志）与Snapshot（快照）数据，但是Zookeeper还提供了一个用于Log存储目录的配置项dataLogDi 阅读全文

posted @ 2018-02-23 16:56 大数据从业者FelixZh 阅读(6589) 评论(0) 推荐(0)

ZooKeeper Administrator's Guide A Guide to Deployment and Administration（吃别人嚼过的馍没意思，直接看官网资料）

摘要： Deployment System Requirements Supported Platforms Required Software Clustered (Multi-Server) Setup Single Server and Developer Setup Administration D 阅读全文

posted @ 2018-02-23 14:38 大数据从业者FelixZh 阅读(582) 评论(0) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告