上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 32 下一页
摘要: 1.单播(Unicast) “单播”可以理解为一个人对另外一个人说话,,此时信息的接收和传递只在两个节点之间进行,参见图1。 单播的优点: 1)服务器及时响应客户机的请求 2)服务器针对每个客户不通的请求发送不通的数据,容易实现个性化服务。 单播的缺点: 1)服务器针对每个客户机发送数据流,服务器流 阅读全文
posted @ 2018-04-02 09:45 大数据从业者FelixZh 阅读(3147) 评论(0) 推荐(0)
摘要: 二层交换机与三层交换机区别详解! 我们习惯说,在二层网络环境中相同vlan之间可以通信,不同vlan之间不可以通信,如果想通信必须借助三层设备,所以说三层交换机必须要做的事情是路由转发,但是二、三层交换机具体有什么区别呢? 二层交换机工作于OSI模型的第2层(数据链路层),故而称为二层交换机。 二层 阅读全文
posted @ 2018-04-02 09:13 大数据从业者FelixZh 阅读(2213) 评论(0) 推荐(0)
摘要: 1)/var/log/secure:记录登录系统存取数据的文件;例如:pop3,ssh,telnet,ftp等都会记录在此.2)/var/log/wtmp:记录登录这的信息记录,被编码过,所以必须以last解析;例如:lastb | awk '{ print $3}' | sort | uniq - 阅读全文
posted @ 2018-03-31 15:20 大数据从业者FelixZh 阅读(1474) 评论(0) 推荐(0)
摘要: 报文(message)是网络中交换与传输的数据单元,也是网络传输的单元。报文包含了将要发送的完整的数据信息,其长短不需一致。报文在传输过程中会不断地封装成分组、包、帧来传输,封装的方式就是添加一些控制信息组成的首部,那些就是报文头。 应用层:报文(message),一般指完整的信息,传输层实现报文交 阅读全文
posted @ 2018-03-31 15:16 大数据从业者FelixZh 阅读(1153) 评论(0) 推荐(0)
摘要: 在linux系统中,last与lastb命令用来列出目前与过去登录系统的用户相关信息。指令英文原义: last, lastb - show listing of last logged in users 单独执行last指令时,它会读取位于/var/log/wtmp的文件,并把该给文件的内容记录的登 阅读全文
posted @ 2018-03-29 17:34 大数据从业者FelixZh 阅读(4186) 评论(0) 推荐(0)
摘要: 正常情况下,nginx进程状态如下: 当修改配置文件,reload之后: PID=17114的wroker有正在处理的连接,等处理结束,该worker就会退出(退出之前,该worker不会处理新的连接): 阅读全文
posted @ 2018-03-29 16:40 大数据从业者FelixZh 阅读(11673) 评论(0) 推荐(0)
摘要: 官网地址:http://www.keepalived.org/官网文档:http://www.keepalived.org/documentation.html Keepalived的作用是检测服务器的状态,如果有一台服务器死机或工作出现故障 Keepalived将检测到,并将有故障的web服务器从 阅读全文
posted @ 2018-03-28 10:58 大数据从业者FelixZh 阅读(629) 评论(0) 推荐(0)
摘要: 官方安装文档 http://www.keepalived.org/doc/installing_keepalived.html Installing Keepalived Install keepalived from the distribution’s repositories or, alte 阅读全文
posted @ 2018-03-28 10:53 大数据从业者FelixZh 阅读(570) 评论(0) 推荐(0)
摘要: ps -p PID -o lstart 其中PID是进程的pid 阅读全文
posted @ 2018-03-27 18:40 大数据从业者FelixZh 阅读(297) 评论(0) 推荐(0)
摘要: 虽然应用keepalived搞定了后端服务负载均衡和高可用性问题,但是在具体应用的时候,还是要注意很多问题。很多应用都用tcp或者http的长连接,因为建立tcp连接或者http连接开销比较大,而应用端其实是需要频繁跟server端通讯的,这时候保持长连接无疑是非常合适的。经过摸索lvs & kee 阅读全文
posted @ 2018-03-27 18:29 大数据从业者FelixZh 阅读(6026) 评论(0) 推荐(0)
摘要: 第一: 程序运行的时候,JVM内存主要由以下部分组成: 所有线程共享一个堆,在 Java 虚拟机中,堆(Heap)是可供各条线程共享的运行时内存区域,也是供所有类实例和数组对象分配内存的区域。 Java 堆在虚拟机启动的时候就被创建,Java垃圾回收管理的主要区域,这些受管理的对象无需,也无法显式地 阅读全文
posted @ 2018-03-23 16:21 大数据从业者FelixZh 阅读(706) 评论(0) 推荐(0)
摘要: http://blog.csdn.net/aijiudu/article/details/72353510 废话不说直接来一张图如下: 从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产 阅读全文
posted @ 2018-03-19 19:26 大数据从业者FelixZh 阅读(12192) 评论(0) 推荐(1)
摘要: ORCFILE IN HDP 2: BETTER COMPRESSION, BETTER PERFORMANCE by Carter Shanklin by Carter Shanklin The upcoming Hive 0.12 is set to bring some great new a 阅读全文
posted @ 2018-03-19 18:58 大数据从业者FelixZh 阅读(386) 评论(0) 推荐(0)
摘要: 1、背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2017-11-11 阅读全文
posted @ 2018-03-19 17:18 大数据从业者FelixZh 阅读(3761) 评论(1) 推荐(0)
摘要: ORC文件格式是从Hive-0.11版本开始的。关于ORC文件格式的官方文档,以及基于官方文档的翻译内容这里就不赘述了,有兴趣的可以仔细研究了解一下。本文接下来根据论文《Major Technical Advancements in Apache Hive》中的内容进行深入的研究。 一、ORC文件格 阅读全文
posted @ 2018-03-19 16:51 大数据从业者FelixZh 阅读(1779) 评论(0) 推荐(0)
摘要: Hive简介 Hive是一个基于 Hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它最初是应Facebook对每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,Hive把海量数据存储于Hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并 阅读全文
posted @ 2018-03-19 16:12 大数据从业者FelixZh 阅读(1510) 评论(0) 推荐(0)
摘要: Short Description: Hive configuration settings to optimize your HiveQL when querying ORC formatted tables. Short Description: Article SYNOPSIS The Opt 阅读全文
posted @ 2018-03-19 15:09 大数据从业者FelixZh 阅读(414) 评论(0) 推荐(0)
摘要: Short Description: ORC Creation Best Practices with examples and references. Short Description: Article Synopsis. ORC is a columnar storage format for 阅读全文
posted @ 2018-03-19 14:01 大数据从业者FelixZh 阅读(427) 评论(0) 推荐(0)
摘要: http://blog.csdn.net/zhaorongsheng/article/details/72903431 官网关于orcfile的介绍 背景 Hive的rcfile格式已经使用多年,但是,它会将所有的列都当做二进制来处理,没有与类型挂钩。因此,Hive0.11版本引入orcFile。O 阅读全文
posted @ 2018-03-15 17:54 大数据从业者FelixZh 阅读(3072) 评论(0) 推荐(1)
摘要: Java处理JSON数据有三个比较流行的类库FastJSON、Gson和Jackson。本文将测试这三个类库在JSON序列化和反序列化的方面表现,主要测试JSON序列化和反序列化的速度。为了防止由于内存导致测试结果出现偏差,测试中对JVM内存配置-Xmx4g -Xms4g。 JSON序列化(Obje 阅读全文
posted @ 2018-03-12 20:40 大数据从业者FelixZh 阅读(13175) 评论(0) 推荐(1)
摘要: 根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN 阅读全文
posted @ 2018-03-08 18:09 大数据从业者FelixZh 阅读(2002) 评论(0) 推荐(0)
摘要: 关键字:hdfs fsck、block、locations 在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。 fsck命令必须由HDFS超级用户来执行,普通用户无权限。 下面介绍每一个选项的含义及用法。 查看文件中损坏的块(-list- 阅读全文
posted @ 2018-03-08 17:54 大数据从业者FelixZh 阅读(6921) 评论(0) 推荐(0)
摘要: http://lxw1234.com/archives/2016/04/630.htm 关键字:orc、index、hive Hive从0.11版本开始提供了ORC的文件格式,ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。 阅读全文
posted @ 2018-03-08 17:07 大数据从业者FelixZh 阅读(2633) 评论(0) 推荐(0)
摘要: InfluxDB基本概念 1、数据格式 在 InfluxDB 中,我们可以粗略的将要存入的一条数据看作一个虚拟的 key 和其对应的 value(field value)。格式如下: 1 cpu_usage,host=server01,region=us-west value=0.64 143405 阅读全文
posted @ 2018-03-07 13:00 大数据从业者FelixZh 阅读(3529) 评论(0) 推荐(0)
摘要: InfluxDB介绍 官网:https://www.influxdata.com/ 文档:https://docs.influxdata.com/influxdb/v1.2/introduction/ InfluxDB 是用Go语言编写的一个开源分布式时序、事件和指标数据库,无需外部依赖。 主要特色 阅读全文
posted @ 2018-03-07 12:59 大数据从业者FelixZh 阅读(837) 评论(0) 推荐(0)
摘要: https://www.jianshu.com/p/73eec030db86 项目中用到storm+kafka+zookeeper,在实际应用中zk和kafka常出问题,这里记录下在使用zk过程中的问题。 注:zk版本是3.4.8,kafka是0.8.2.0。zk、storm和kafka都是运行在同 阅读全文
posted @ 2018-02-24 12:59 大数据从业者FelixZh 阅读(1539) 评论(0) 推荐(0)
摘要: 前言 ZooKeeper是雅虎的。用Ant进行软件构建。 千里之行,始于足下。想看源码的第一步,是下载源码并导入某个IDE工具。 Ant http://ant.apache.org/ Windows: 下载Ant,解压到硬盘,比如C:\Work\apache-ant-1.9.7,在环境变量中增加AN 阅读全文
posted @ 2018-02-24 11:02 大数据从业者FelixZh 阅读(667) 评论(0) 推荐(0)
摘要: ZooKeeper Observers Observers: Scaling ZooKeeper Without Hurting Write Performance How to use Observers Example use cases Observers: Scaling ZooKeeper 阅读全文
posted @ 2018-02-23 17:51 大数据从业者FelixZh 阅读(896) 评论(0) 推荐(0)
摘要: 有用过Zookeeper的都知道zoo.cfg配置文件中有dataDir配置项用于存储数据,不过可能有些人不太清楚这个目录具体存储的是那些数据,默认情况下这个目录是用于存储Log(事务日志)与Snapshot(快照)数据,但是Zookeeper还提供了一个用于Log存储目录的配置项dataLogDi 阅读全文
posted @ 2018-02-23 16:56 大数据从业者FelixZh 阅读(6558) 评论(0) 推荐(0)
摘要: Deployment System Requirements Supported Platforms Required Software Clustered (Multi-Server) Setup Single Server and Developer Setup Administration D 阅读全文
posted @ 2018-02-23 14:38 大数据从业者FelixZh 阅读(579) 评论(0) 推荐(0)
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 32 下一页
大数据从业者