随笔档案「2019年3月」 - Transkai

Hive 特殊分隔符处理

摘要：HIVE特殊分隔符处理 Hive对文件中的分隔符默认情况下只支持单字节分隔符，,默认单字符是\001。当然你也可以在创建表格时指定数据的分割符号。但是如果数据文件中的分隔符是多字符的，如下图： 01||zhangsan 02||lisi 03||wangwu 补充：hive读取数据的机制 1、首先用阅读全文

posted @ 2019-03-30 18:59 Transkai 阅读(2850) 评论(0) 推荐(0)

Flume 多个agent串联

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求，首先定义以下3大要素第一台flume agent l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标阅读全文

posted @ 2019-03-30 18:26 Transkai 阅读(1296) 评论(0) 推荐(0)

Flume 案例 Telnet安装及采集Telnet发送信息到控制台

摘要：Telnet安装一、查看本机是否安装telnet #rpm -qa | grep telnet 如果什么都不显示。说明你没有安装telnet 二、开始安装 yum install xinetd yum install telnet yum install telnet-server 三、装好tel 阅读全文

posted @ 2019-03-30 10:35 Transkai 阅读(889) 评论(0) 推荐(0)

Hive 数据类型

摘要：1. hive的数据类型Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型2. hive基本数据类型基础数据类型包括： TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DE 阅读全文

posted @ 2019-03-28 00:23 Transkai 阅读(2352) 评论(0) 推荐(0)

Hive DDL及DML操作

摘要：一.修改表增加/删除分区语法结构 ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION 'location1' ] partition_spec [ LOCATION 'location2' ] ... part 阅读全文

posted @ 2019-03-24 21:43 Transkai 阅读(337) 评论(0) 推荐(0)

Hbase Shell命令详解+API操作

摘要：HBase Shell 操作 3.1 基本操作1．进入 HBase 客户端命令行，在hbase-2.1.3目录下 bin/hbase shell 2．查看帮助命令 hbase(main):001:0> help 3．查看当前数据库中有哪些表 hbase(main):002:0> list 3.2 表阅读全文

posted @ 2019-03-21 21:50 Transkai 阅读(2661) 评论(0) 推荐(0)

Zookeeper Ha集群简介+jdbcClient访问Ha集群环境

摘要：Hadoop-HA机制HA概述high available(高可用) 所谓HA（high available），即高可用（7*24小时不中断服务）。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 Hadoop2.0之前，在HDFS集群阅读全文

posted @ 2019-03-21 01:50 Transkai 阅读(333) 评论(0) 推荐(0)

Hbase 简介+环境安装配置教程

摘要：HBase介绍 HBase是参考google的bigtable的一个开源产品，建立在hdfs之上的一个提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。是一种介于nosql和RDBMs之间的一种数据库系统，仅支持通过rowkey和range进行数据的检索，主要存储非结构化数据和半结构化数据阅读全文

posted @ 2019-03-21 01:26 Transkai 阅读(314) 评论(0) 推荐(0)

Zookeeper 三台主机 Ha集群的搭建

摘要：前期准备1.修改Linux主机名 2.修改IP 3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等） /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙 5.ssh免登阅读全文

posted @ 2019-03-20 10:04 Transkai 阅读(1128) 评论(0) 推荐(1)

Flume 概述+环境配置+监听Hive日志信息并写入到hdfs

摘要：Flume介绍Flume是Apache基金会组织的一个提供的高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本，Flume 0 阅读全文

posted @ 2019-03-19 17:23 Transkai 阅读(1061) 评论(0) 推荐(0)

Sqoop 导入及导出表数据子集命令详解

摘要：Sqoop命令详解 1、import命令案例1：将mysql表test中的数据导入hive的hivetest表，hive的hivetest表不存在。 sqoop import --connect jdbc:mysql://hadoop-001:3306/test --username root - 阅读全文

posted @ 2019-03-19 01:28 Transkai 阅读(1343) 评论(0) 推荐(0)

Sqoop 介绍、安装及环境配置

摘要：一.Sqoop Sqoop介绍 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。一般情况下，是将数据分析的结果导出阅读全文

posted @ 2019-03-18 22:17 Transkai 阅读(3436) 评论(0) 推荐(0)

Hive HiveServer2+beeline+jdbc客户端访问操作

摘要：HiveServer 查看/home/hadoop/bigdatasoftware/apache-hive-0.13.1-bin/bin目录文件，其中有hiveserver2 启动hiveserver2，如下图：打开多一个终端，查看进程有RunJar进程说明hiveserver正在运行； bee 阅读全文

posted @ 2019-03-18 13:21 Transkai 阅读(877) 评论(0) 推荐(0)

Hadoop yarn工作流程详解

摘要：yarn是什么？1、它是一个资源调度及提供作业运行的系统环境平台资源：cpu、mem等作业：map task、reduce Task yarn产生背景？它是从hadoop2.x版本才引入1、hadoop1.x版本它是如何资源调度及作业运行机制原理a、JobTracker（主节点）（a）：接受客阅读全文

posted @ 2019-03-18 00:59 Transkai 阅读(4086) 评论(0) 推荐(1)

Zookeeper 配置集群环境详解

摘要：在Linux环境下安装zookeeper 在Linux环境下安装zookeeper 1、将zookeeper-3.4.13.tar.gz复制到linux操作系统 2、通过putty终端访问linux操作详细步骤可见以下链接 https://www.cnblogs.com/Transkai/p/ 阅读全文

posted @ 2019-03-18 00:35 Transkai 阅读(429) 评论(0) 推荐(0)

Hive函数以及自定义函数讲解（UDF）

摘要：Hive函数介绍HQL内嵌函数只有195个函数(包括操作符，使用命令show functions查看)，基本能够胜任基本的hive开发，但是当有较为复杂的需求的时候，可能需要进行定制的HQL函数开发。HQL支持三种方式来进行功能的扩展(只支持使用java编写实现自定义函数)，分别是：UDF(User 阅读全文

posted @ 2019-03-16 14:24 Transkai 阅读(2402) 评论(0) 推荐(0)

Hive Shell 命令详解

摘要：Hive服务介绍 Hive默认提供的cli(shell)服务，如果需要启动其他服务，那么需要service参数来启动其他服务，比如thrift服务、metastore服务等。可以通过命令hive --service help查看hive支持的命令。 Hive Shell命令介绍Hive的shell命阅读全文

posted @ 2019-03-16 01:03 Transkai 阅读(6400) 评论(0) 推荐(0)

Hive介绍和Hive环境搭建

摘要：一.Hive介绍 Hive包含用户接口、元数据库、解析器和数据仓库等组件组成，其中用户接口包含shell客户端、JDBC、ODBC、Web接口等。元数据库主要是指定义在hive中的表结构信息，一般保存到关系型数据库中，默认是derby，一般使用mysql进行保存。解析器主要功能是将HQL语句转换为m 阅读全文

posted @ 2019-03-16 00:34 Transkai 阅读(1248) 评论(0) 推荐(0)

Python Scrapy环境配置教程+使用Scrapy爬取李毅吧内容

摘要：Python爬虫框架Scrapy Scrapy框架 1、Scrapy框架安装直接通过这里安装scrapy会提示报错：解决方法：在有很多用于windows的编译好的Python第三方库，我们下载好对应自己Python版本的库即可。 1. 在cmd中输入指令python，查看python的版本，如阅读全文

posted @ 2019-03-15 01:46 Transkai 阅读(1407) 评论(0) 推荐(0)

Python 基础语法+简单地爬取百度贴吧内容

摘要：Python笔记 1、Python3和Pycharm2018的安装 2、Python3基础语法 2.1.1、数据类型 2.1.1.1、数据类型：数字（整数和浮点数）整数：int类型浮点数：float类型。 2.1.1.2、数据类型：字符类型 2.1.1.3、数据类型：布尔类型 True：真 Fl 阅读全文

posted @ 2019-03-15 01:42 Transkai 阅读(332) 评论(0) 推荐(0)

Hadoop Mapreduce 工作机制

摘要：一.Mapreduce 中的Combiner 在job类中声明如下：二.MapTask工作机制主要的核心类：读： FileInputFormat TextInputFormat createRecordReader LineRecordReader nextKeyValue 写： contex 阅读全文

posted @ 2019-03-10 23:59 Transkai 阅读(434) 评论(0) 推荐(0)

Myeclipse 配置Git详解

摘要：Myeclipse+Git EGit安装 MyEclipse已经集成了Git插件EGit，在window->Preference里搜索git可以看到。如果没有，安装方式为Help->Install From Catalog->搜索Git，找到Eclipse EGit Eclipse Git Tea 阅读全文

posted @ 2019-03-07 11:38 Transkai 阅读(6368) 评论(1) 推荐(2)

Java 多线程详解

摘要：一.重点 1.创建和启动线程 2.实现线程调度 3.实现线程同步 4.实现线程通信 1.为什么要学习多线程？当多个人访问电脑上同一资源的时候，要用到多线程，让每个人感觉很多电脑同时为多个人服务。比如： 1.1.排队叫号系统，多个人同一时间请电脑生成一张等待票据时，如果没有多线程的话，有可能会生阅读全文

posted @ 2019-03-07 00:41 Transkai 阅读(239) 评论(0) 推荐(0)

Hadoop Mapreduce 案例 wordcount+统计手机流量使用情况

摘要：mapreduce设计思想概念：它是一个分布式并行计算的应用框架它提供相应简单的api模型，我们只需按照这些模型规则编写程序，即可实现"分布式并行计算"的功能。案例一：wordcount经典案例先写map方法以下为reduce方法最后是主类双击package,可以生成mapreducew 阅读全文

posted @ 2019-03-05 00:22 Transkai 阅读(1037) 评论(0) 推荐(0)

Hadoop HDFS NameNode工作机制

摘要：Secondary namenode 首先，我们假设如果存储在Namenode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断点，元数据丢失，整个集群就无法工作了！！！因此必须在磁盘中有备份，在磁盘中的备份就是fsIm 阅读全文

posted @ 2019-03-04 22:01 Transkai 阅读(352) 评论(0) 推荐(0)

Hadoop HDFS元数据目录分析

摘要：元数据目录分析在第一次部署好Hadoop集群的时候，我们需要在NameNode（NN）节点上格式化磁盘： $HADOOP_HOME/bin/hdfs namenode -format 格式化完成之后，将会在$dfs.namenode.name.dir/current目录下如下的文件结构其中的df 阅读全文

posted @ 2019-03-04 00:24 Transkai 阅读(583) 评论(0) 推荐(0)

Hadoop HDFS DataNode 目录结构

摘要：DataNode 目录结构和namenode不同的是，datanode的存储目录是初始阶段自动创建的，不需要额外格式化。 1、在/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current这个目录下查看版本号 [victor@hadoop102 curre 阅读全文

posted @ 2019-03-04 00:16 Transkai 阅读(1027) 评论(0) 推荐(0)

Hadoop HDFS 文件块大小

摘要：HDFS 文件块大小 HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。如果块设置得足够大，从磁盘传输数据的时间会明显阅读全文

posted @ 2019-03-04 00:14 Transkai 阅读(863) 评论(0) 推荐(0)

Hadoop HDFS的shell(命令行客户端)操作实例

摘要：HDFS的shell(命令行客户端)操作实例 3.2 常用命令参数介绍 -help 功能：输出这个命令参数手册 -ls 功能：显示目录信息示例： hadoop fs -ls hdfs://hadoop-server01:9000/ 备注：这些参数中，所有的hdfs路径都可以简写 -->hadoop 阅读全文

posted @ 2019-03-04 00:11 Transkai 阅读(354) 评论(0) 推荐(0)

Hadoop JAVA HDFS客户端操作

摘要：JAVA HDFS客户端操作通过API操作HDFS org.apache.logging.log4jlog4j-core2.8.2org.apache.hadoophadoop-common${hadoop.version}org.apache.hadoophadoop-hdfs${hadoop. 阅读全文

posted @ 2019-03-04 00:07 Transkai 阅读(388) 评论(0) 推荐(0)

Transkai

03 2019 档案

公告