Kafka Consumer
摘要:本文转发自技术世界,原文链接 http://www.jasongj.com/2015/08/09/KafkaColumn4 本文主要介绍了Kafka High Level Consumer,Consumer Group,Consumer Rebalance,Low Level Consumer实现的
阅读全文
posted @
2018-09-30 15:42
脆皮软心
阅读(308)
推荐(0)
Leader Election
摘要:一、zookepper Leader Election 主要有两种方法: (1)抢注Leader节点 非公平模式 (2)先到先得,后者监听前者 公平模式 (1)抢注Leader节点 非公平模式 1.创建Leader父节点,如/chroot,并将其设置为persist持久节点; 2.各客户端通过在/c
阅读全文
posted @
2018-09-30 12:07
脆皮软心
阅读(857)
推荐(0)
Zookeeper如何正确设置和获取watcher
摘要:Watcher 设置是开发中最常见的,需要搞清楚watcher的一些基本特征,对于exists、getdata、getchild对于节点的不同操作会收到不同的 watcher信息 state=-112 会话超时状态 state= -113 认证失败状态 state= 1 连接建立中 state= 2
阅读全文
posted @
2018-09-30 11:31
脆皮软心
阅读(919)
推荐(0)
kafka与zookeeper读写分析
摘要:kafka的读写都通过leader完成,而zookeeper只有写要通过leader而读可以通过任意follower,我觉得造成这种差异的原因还是在于使用场景。 kafka的设计目标是实现一个高吞吐的消息处理系统,其一个重要特性就是需要保证数据一致性和有序性。如果所有Replica都可以同时读写,那
阅读全文
posted @
2018-09-30 11:24
脆皮软心
阅读(206)
推荐(0)
kafka原生producer API
摘要:转自https://blog.csdn.net/tianlan996/article/details/80495208 1. 类 2. producer是线程安全的(这点不同于consumer),多线程共享producer可以提高效率。 3. 使用示例: producer包含一个缓存空间来存放未发送
阅读全文
posted @
2018-09-27 14:11
脆皮软心
阅读(223)
推荐(0)
学习资料
摘要:1、有关kafka、spark、大数据、机器学习、设计模式 http://www.jasongj.com/
阅读全文
posted @
2018-09-27 09:14
脆皮软心
阅读(121)
推荐(0)
kafka学习资料
摘要:https://www.jianshu.com/p/fa307ecc1eeb https://blog.csdn.net/lizhitao/article/details/39499283 https://www.cnblogs.com/skying555/p/7903457.html https:
阅读全文
posted @
2018-09-20 11:39
脆皮软心
阅读(139)
推荐(0)
Zookeeper学习
摘要:1、 Zookepper介绍***** https://www.jianshu.com/p/84ad63127cd1 2、ZAB Zookepper 原子广播协议 https://blog.csdn.net/junchenbb0430/article/details/77583955 3、Zooke
阅读全文
posted @
2018-09-19 15:44
脆皮软心
阅读(165)
推荐(0)
Hive学习(三)Hive的Java客户端操作
摘要:Hive的Java客户端操作分为JDBC和Thrifit Client,首先启动Hive远程服务: 一、JDBC 在MyEclipse中首先创建连接 然后执行HQL 二、Thrifit Client
阅读全文
posted @
2018-09-19 09:27
脆皮软心
阅读(1296)
推荐(0)
sqoop导出数据
摘要:export是HDFS里的文件导出到RDBMS的工具,不能从hive、hbase导出数据,且HDFS文件只能是文本格式。如果要把hive表数据导出到RDBMS,可以先把hive表通过查询写入到一个临时表,临时用文本格式,然后再从该临时表目录里export数据。 HDFS导出数据到MySQL 说明:
阅读全文
posted @
2018-09-18 15:51
脆皮软心
阅读(632)
推荐(0)
sqoop导入数据
摘要:来源https://www.cnblogs.com/qingyunzong/p/8807252.html 一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据
阅读全文
posted @
2018-09-18 15:44
脆皮软心
阅读(1268)
推荐(0)
Hive学习(二)
摘要:1、Hive数据导入 2、Hive的数据查询 3、Hive的Java客户端和自定义函数 1、Hive数据导入 (1.1)使用Load语句导入 HiveQL中提供LOAD DATA命令,用于导入数据到Hive表中。根据导入文件是在本地,还是在HDFS文件系统上,LOAD DATA命令,又可分为LOAD
阅读全文
posted @
2018-09-18 14:44
脆皮软心
阅读(125)
推荐(0)
各个版本的集群安装包地址
摘要:1、各个版本的集群安装包地址 http://archive.apache.org/dist/ 2、Hbase官方地址 http://hbase.apache.org/ 3、Hive官方地址 https://hive.apache.org/ 4、zookepper官方地址 http://zookeep
阅读全文
posted @
2018-09-18 10:41
脆皮软心
阅读(211)
推荐(0)
Hive学习(一)
摘要:https://www.cnblogs.com/qingyunzong/p/8707885.html http://www.360doc.com/content/16/1006/23/15257968_596289341.shtml 1.什么是hive 基于 Hadoop 的一个数据仓库工具:hiv
阅读全文
posted @
2018-09-18 10:03
脆皮软心
阅读(222)
推荐(0)
数据仓库
摘要:学习Hive之前,首先了解数据仓库的相关概念 1. 什么是数据仓库 1.1 数据仓库的概念 官方定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 特点 面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将
阅读全文
posted @
2018-09-18 09:53
脆皮软心
阅读(190)
推荐(0)
HBase学习(二)
摘要:HBase安装说明: HBase下载地址: http://archive.apache.org/dist/hbase/ 更新比较多的版本是比较稳定,使用周期比较长的版本 HBase表操作命令:https://www.cnblogs.com/shadowalker/p/7350484.html 进入h
阅读全文
posted @
2018-09-17 20:02
脆皮软心
阅读(167)
推荐(0)
HBase学习(一)
摘要:HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。 HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。 它是Hadoop的生态系统,提供对数据的随机实时读/写访
阅读全文
posted @
2018-09-17 19:42
脆皮软心
阅读(262)
推荐(0)
HDFS读写文件流程
摘要:1详细的读写流程 https://blog.csdn.net/qq_41544550/article/details/90412767 2. 读取: 写入: https://www.imooc.com/article/70527
阅读全文
posted @
2018-09-17 15:45
脆皮软心
阅读(157)
推荐(0)
Hadoop常见问题
摘要:1、列出Hadoop集群的Hadoop守护进程和相关的角色。 Namenode:它运行上Master节点(主节点)上,负责存储的文件和目录所有元数据。它管理文件的块信息,以及块在集群中分布的信息。(管理文件系统的命名空间和客户端对文件的访问操作) Datanode:它是一个存储实际数据的Slave节
阅读全文
posted @
2018-09-17 15:36
脆皮软心
阅读(282)
推荐(0)
MapReduce的主要的六个类讲解
摘要:a、InputFormat类。该类的作用是将输入的文件和数据分割成许多小的split文件, 并将split的每个行通过LineRecorderReader解析成<Key,Value>,通过job.setInputFromatClass()函数来设置, 默认的情况为类TextInputFormat,其
阅读全文
posted @
2018-09-17 13:51
脆皮软心
阅读(515)
推荐(0)
Spark教程
摘要:不错的Spark在线教程 https://blog.csdn.net/see_you_see_me/article/details/76165912 https://blog.csdn.net/book_mmicky/article/details/25714419 https://me.csdn.
阅读全文
posted @
2018-09-14 10:48
脆皮软心
阅读(155)
推荐(0)
常用vim命令
摘要:gg:移到首行 G :光标移到最后一行 ) :光标移至句尾 ( :光标移至句首 }:光标移至段落开头 {:光标移至段落结尾 nG:光标移至第n行首 n+:光标下移n行 n-:光标上移n行 0:(注意是数字零)光标移至当前行首 $:光标移至当前行尾 删除命令: dd 删除当前行 删除全部: 方法1:
阅读全文
posted @
2018-09-10 15:56
脆皮软心
阅读(146)
推荐(0)
所有节点配置NTP服务
摘要:主节点: 打开vim /etc/ntp.conf文件 从节点 vim vim /etc/ntp.conf
阅读全文
posted @
2018-09-10 14:18
脆皮软心
阅读(674)
推荐(0)
修改虚拟机IP地址
摘要:Linux环境下IP地址配置文件路径: vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE="eth0"BOOTPROTO="static"HWADDR="00:0C:29:3A:56:B2"IPV6INIT="yes"NM_CONTROLLED
阅读全文
posted @
2018-09-07 15:44
脆皮软心
阅读(1410)
推荐(0)
虚拟机安装MySQL报** is needed by **错误
摘要:执行命令: [root@node1 local]# rpm -ivh mysql-community-server-8.0.12-1.el7.x86_64.rpm 安装MySQL遇到以下问题: 解决办法:
阅读全文
posted @
2018-09-05 17:25
脆皮软心
阅读(848)
推荐(0)
shell 命令下载软件 安装软件
摘要:下载命令:wget URL地址 安装 rpm -ivh 文件地址
阅读全文
posted @
2018-09-05 16:28
脆皮软心
阅读(237)
推荐(0)
RedHat6.5安装MySQL5.7
摘要:安装环境:RedHat6.5 第一步:下载 下载MySQL5.7:http://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.12-1.el6.x86_64.rpm-bundle.tar 第二步:安装 安装前检查服务器是否已安装MySQL,如已安装则
阅读全文
posted @
2018-09-05 14:53
脆皮软心
阅读(183)
推荐(0)
RedHat安装yum+配置国内yum源
摘要:转载自https://www.cnblogs.com/royfans/p/7249110.html 新安装了redhat6.5安装后,登录系统,使用yum update 更新系统。提示: This system is not registered to Red Hat Subscription Ma
阅读全文
posted @
2018-09-05 14:06
脆皮软心
阅读(7045)
推荐(0)
XGBoost算法
摘要:一、基础知识 (1)泰勒公式 泰勒公式是一个用函数在某点的信息描述其附近取值的公式。具有局部有效性。 基本形式如下: 由以上的基本形式可知泰勒公式的迭代形式为: 以上这个迭代形式是针对二阶泰勒展开,你也可以进行更多阶的泰勒展开。 (2)梯度下降法 在机器学习算法中,我们的目标是最小化损失函数L(th
阅读全文
posted @
2018-09-03 09:09
脆皮软心
阅读(409)
推荐(0)
Bagging和Boosting 概念及区别
摘要:Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。 1、Bagging (
阅读全文
posted @
2018-09-01 15:53
脆皮软心
阅读(251)
推荐(0)
关于python的sort和sorted
摘要:1、sort无返回值,没有新建列表 例子: 输出 可以看到b啥也没有,a却已经排序了,估计sort的用法应该就是a.sort()就可以,不用再去赋值给b 2、sorted生成新列表,旧列表不变 sorted,这个应该用的多一些,一方面这个有返回值,另一方面可以选定需要的key进行排序,主要看例子 用
阅读全文
posted @
2018-09-01 11:04
脆皮软心
阅读(179)
推荐(0)
sklearn中常用数据预处理方法
摘要:1. 标准化(Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。 一般会把train和test集放在一起做标准化,或者在tra
阅读全文
posted @
2018-09-01 10:38
脆皮软心
阅读(2186)
推荐(0)