随笔档案「2018年9月」 - 脆皮软心

Kafka Consumer

摘要：本文转发自技术世界，原文链接　http://www.jasongj.com/2015/08/09/KafkaColumn4 本文主要介绍了Kafka High Level Consumer，Consumer Group，Consumer Rebalance，Low Level Consumer实现的阅读全文

posted @ 2018-09-30 15:42 脆皮软心阅读(308) 评论(0) 推荐(0)

Leader Election

摘要：一、zookepper Leader Election 主要有两种方法： (1)抢注Leader节点非公平模式 (2)先到先得，后者监听前者公平模式 (1)抢注Leader节点非公平模式 1.创建Leader父节点，如/chroot,并将其设置为persist持久节点； 2.各客户端通过在/c 阅读全文

posted @ 2018-09-30 12:07 脆皮软心阅读(857) 评论(1) 推荐(0)

Zookeeper如何正确设置和获取watcher

摘要：Watcher 设置是开发中最常见的，需要搞清楚watcher的一些基本特征，对于exists、getdata、getchild对于节点的不同操作会收到不同的 watcher信息 state=-112 会话超时状态 state= -113　认证失败状态 state= 1 连接建立中 state= 2 阅读全文

posted @ 2018-09-30 11:31 脆皮软心阅读(919) 评论(0) 推荐(0)

kafka与zookeeper读写分析

摘要：kafka的读写都通过leader完成，而zookeeper只有写要通过leader而读可以通过任意follower，我觉得造成这种差异的原因还是在于使用场景。 kafka的设计目标是实现一个高吞吐的消息处理系统，其一个重要特性就是需要保证数据一致性和有序性。如果所有Replica都可以同时读写，那阅读全文

posted @ 2018-09-30 11:24 脆皮软心阅读(206) 评论(0) 推荐(0)

kafka原生producer API

摘要：转自https://blog.csdn.net/tianlan996/article/details/80495208 1. 类 2. producer是线程安全的（这点不同于consumer），多线程共享producer可以提高效率。 3. 使用示例： producer包含一个缓存空间来存放未发送阅读全文

posted @ 2018-09-27 14:11 脆皮软心阅读(223) 评论(0) 推荐(0)

学习资料

摘要：1、有关kafka、spark、大数据、机器学习、设计模式 http://www.jasongj.com/ 阅读全文

posted @ 2018-09-27 09:14 脆皮软心阅读(121) 评论(0) 推荐(0)

kafka学习资料

摘要：https://www.jianshu.com/p/fa307ecc1eeb https://blog.csdn.net/lizhitao/article/details/39499283 https://www.cnblogs.com/skying555/p/7903457.html https: 阅读全文

posted @ 2018-09-20 11:39 脆皮软心阅读(139) 评论(0) 推荐(0)

Zookeeper学习

摘要：1、 Zookepper介绍***** https://www.jianshu.com/p/84ad63127cd1 2、ZAB Zookepper 原子广播协议 https://blog.csdn.net/junchenbb0430/article/details/77583955 3、Zooke 阅读全文

posted @ 2018-09-19 15:44 脆皮软心阅读(165) 评论(0) 推荐(0)

Hive学习（三）Hive的Java客户端操作

摘要：Hive的Java客户端操作分为JDBC和Thrifit Client,首先启动Hive远程服务：一、JDBC 在MyEclipse中首先创建连接然后执行HQL 二、Thrifit Client 阅读全文

posted @ 2018-09-19 09:27 脆皮软心阅读(1296) 评论(0) 推荐(0)

sqoop导出数据

摘要：export是HDFS里的文件导出到RDBMS的工具，不能从hive、hbase导出数据，且HDFS文件只能是文本格式。如果要把hive表数据导出到RDBMS，可以先把hive表通过查询写入到一个临时表，临时用文本格式，然后再从该临时表目录里export数据。 HDFS导出数据到MySQL 说明：阅读全文

posted @ 2018-09-18 15:51 脆皮软心阅读(632) 评论(0) 推荐(0)

sqoop导入数据

摘要：来源https://www.cnblogs.com/qingyunzong/p/8807252.html 一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle 导入数据阅读全文

posted @ 2018-09-18 15:44 脆皮软心阅读(1268) 评论(0) 推荐(0)

Hive学习（二）

摘要：1、Hive数据导入 2、Hive的数据查询 3、Hive的Java客户端和自定义函数 1、Hive数据导入（1.1）使用Load语句导入 HiveQL中提供LOAD DATA命令，用于导入数据到Hive表中。根据导入文件是在本地，还是在HDFS文件系统上，LOAD DATA命令，又可分为LOAD 阅读全文

posted @ 2018-09-18 14:44 脆皮软心阅读(125) 评论(0) 推荐(0)

各个版本的集群安装包地址

摘要：1、各个版本的集群安装包地址 http://archive.apache.org/dist/ 2、Hbase官方地址 http://hbase.apache.org/ 3、Hive官方地址 https://hive.apache.org/ 4、zookepper官方地址 http://zookeep 阅读全文

posted @ 2018-09-18 10:41 脆皮软心阅读(211) 评论(0) 推荐(0)

Hive学习（一）

摘要：https://www.cnblogs.com/qingyunzong/p/8707885.html http://www.360doc.com/content/16/1006/23/15257968_596289341.shtml 1.什么是hive 基于 Hadoop 的一个数据仓库工具：hiv 阅读全文

posted @ 2018-09-18 10:03 脆皮软心阅读(222) 评论(0) 推荐(0)

数据仓库

摘要：学习Hive之前，首先了解数据仓库的相关概念 1. 什么是数据仓库 1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。特点面向主题：数据仓库都是基于某个明确主题，仅需要与该主题相关的数据，其他的无关细节数据将阅读全文

posted @ 2018-09-18 09:53 脆皮软心阅读(190) 评论(0) 推荐(0)

HBase学习（二）

摘要：HBase安装说明： HBase下载地址： http://archive.apache.org/dist/hbase/ 更新比较多的版本是比较稳定，使用周期比较长的版本 HBase表操作命令：https://www.cnblogs.com/shadowalker/p/7350484.html 进入h 阅读全文

posted @ 2018-09-17 20:02 脆皮软心阅读(167) 评论(0) 推荐(0)

HBase学习（一）

摘要：HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目，是横向扩展的。 HBase是一个数据模型，类似于谷歌的大表设计，可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统（HDFS）提供的容错能力。它是Hadoop的生态系统，提供对数据的随机实时读/写访阅读全文

posted @ 2018-09-17 19:42 脆皮软心阅读(262) 评论(0) 推荐(0)

HDFS读写文件流程

摘要：1详细的读写流程 https://blog.csdn.net/qq_41544550/article/details/90412767 2. 读取：写入： https://www.imooc.com/article/70527 阅读全文

posted @ 2018-09-17 15:45 脆皮软心阅读(157) 评论(0) 推荐(0)

Hadoop常见问题

摘要：1、列出Hadoop集群的Hadoop守护进程和相关的角色。 Namenode：它运行上Master节点（主节点）上，负责存储的文件和目录所有元数据。它管理文件的块信息，以及块在集群中分布的信息。（管理文件系统的命名空间和客户端对文件的访问操作） Datanode：它是一个存储实际数据的Slave节阅读全文

posted @ 2018-09-17 15:36 脆皮软心阅读(282) 评论(0) 推荐(0)

MapReduce的主要的六个类讲解

摘要：a、InputFormat类。该类的作用是将输入的文件和数据分割成许多小的split文件，并将split的每个行通过LineRecorderReader解析成<Key,Value>,通过job.setInputFromatClass()函数来设置，默认的情况为类TextInputFormat，其阅读全文

posted @ 2018-09-17 13:51 脆皮软心阅读(515) 评论(0) 推荐(0)

Spark教程

摘要：不错的Spark在线教程 https://blog.csdn.net/see_you_see_me/article/details/76165912 https://blog.csdn.net/book_mmicky/article/details/25714419 https://me.csdn. 阅读全文

posted @ 2018-09-14 10:48 脆皮软心阅读(155) 评论(0) 推荐(0)

常用vim命令

摘要：gg:移到首行 G ：光标移到最后一行 ) ：光标移至句尾 ( ：光标移至句首 }：光标移至段落开头 {：光标移至段落结尾 nG：光标移至第n行首 n+：光标下移n行 n-：光标上移n行 0：（注意是数字零）光标移至当前行首 $：光标移至当前行尾删除命令： dd 删除当前行删除全部：方法1: 阅读全文

posted @ 2018-09-10 15:56 脆皮软心阅读(146) 评论(0) 推荐(0)

所有节点配置NTP服务

摘要：主节点：打开vim /etc/ntp.conf文件从节点 vim vim /etc/ntp.conf 阅读全文

posted @ 2018-09-10 14:18 脆皮软心阅读(674) 评论(0) 推荐(0)

修改虚拟机IP地址

摘要：Linux环境下IP地址配置文件路径： vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE="eth0"BOOTPROTO="static"HWADDR="00:0C:29:3A:56:B2"IPV6INIT="yes"NM_CONTROLLED 阅读全文

posted @ 2018-09-07 15:44 脆皮软心阅读(1410) 评论(0) 推荐(0)

虚拟机安装MySQL报** is needed by **错误

摘要：执行命令： [root@node1 local]# rpm -ivh mysql-community-server-8.0.12-1.el7.x86_64.rpm 安装MySQL遇到以下问题：解决办法：阅读全文

posted @ 2018-09-05 17:25 脆皮软心阅读(848) 评论(0) 推荐(0)

shell 命令下载软件安装软件

摘要：下载命令：wget URL地址安装 rpm -ivh 文件地址阅读全文

posted @ 2018-09-05 16:28 脆皮软心阅读(237) 评论(0) 推荐(0)

RedHat6.5安装MySQL5.7

摘要：安装环境：RedHat6.5 第一步：下载下载MySQL5.7：http://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.12-1.el6.x86_64.rpm-bundle.tar 第二步：安装安装前检查服务器是否已安装MySQL，如已安装则阅读全文

posted @ 2018-09-05 14:53 脆皮软心阅读(183) 评论(0) 推荐(0)

RedHat安装yum+配置国内yum源

摘要：转载自https://www.cnblogs.com/royfans/p/7249110.html 新安装了redhat6.5安装后，登录系统，使用yum update 更新系统。提示： This system is not registered to Red Hat Subscription Ma 阅读全文

posted @ 2018-09-05 14:06 脆皮软心阅读(7045) 评论(0) 推荐(0)

XGBoost算法

摘要：一、基础知识（1）泰勒公式泰勒公式是一个用函数在某点的信息描述其附近取值的公式。具有局部有效性。基本形式如下：由以上的基本形式可知泰勒公式的迭代形式为：以上这个迭代形式是针对二阶泰勒展开，你也可以进行更多阶的泰勒展开。（2）梯度下降法在机器学习算法中，我们的目标是最小化损失函数L(th 阅读全文

posted @ 2018-09-03 09:09 脆皮软心阅读(409) 评论(0) 推荐(0)

Bagging和Boosting 概念及区别

摘要：Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。 1、Bagging ( 阅读全文

posted @ 2018-09-01 15:53 脆皮软心阅读(251) 评论(0) 推荐(0)

关于python的sort和sorted

摘要：1、sort无返回值，没有新建列表例子：输出可以看到b啥也没有，a却已经排序了，估计sort的用法应该就是a.sort()就可以，不用再去赋值给b 2、sorted生成新列表，旧列表不变 sorted，这个应该用的多一些，一方面这个有返回值，另一方面可以选定需要的key进行排序，主要看例子用阅读全文

posted @ 2018-09-01 11:04 脆皮软心阅读(179) 评论(0) 推荐(0)

sklearn中常用数据预处理方法

摘要：1. 标准化（Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征值减去均值，除以标准差。一般会把train和test集放在一起做标准化，或者在tra 阅读全文

posted @ 2018-09-01 10:38 脆皮软心阅读(2186) 评论(0) 推荐(0)