08 2017 档案

OGG 问题
摘要:1.启动复制时报"ERROR OGG-15050 Oracle GoldenGate Delivery, l***.prm: Error loading Java VM runtime library: (2 No such file or directory)."设置环境变量LD_LIBRARY_PATH,然后重启mgr,再启动rhdfs.如果不重启mgr直接启动rhdfs,则会报这个错2. 对... 阅读全文

posted @ 2017-08-31 00:20 月饼馅饺子 阅读(1675) 评论(0) 推荐(0)

OGG 跳过事务(转)
摘要:http://blog.chinaunix.net/uid-26190993-id-3434074.html 在OGG运行过程中,通常会因为各种各样的原因导致容灾端的REPLICAT进程ABENDED掉,这个时候需要通过分析ggserr.log , DISCARDFILE , REPLICAT REPORT ,以及借助 Logdump 等工具去定位错误。在具体的应用场景下,通过分析排查,有些... 阅读全文

posted @ 2017-08-31 00:20 月饼馅饺子 阅读(981) 评论(0) 推荐(0)

flume handler
摘要:1.classpathclasspath中需要这两项:Flume Agent configuration file and the second are the Flume client jars (flume 代理配置和flume 客户端jar).OGG flume handler使用前者解析主机、端口、连接类型等 。实际上,只需要加入dirprm这个目录和flume_home/lib下即可以2... 阅读全文

posted @ 2017-08-31 00:19 月饼馅饺子 阅读(547) 评论(0) 推荐(0)

kafka handler
摘要:1.配置kafka 参数文件在ogg主目录下有示例文件:[root@WH0PRDBRP00AP0013 ogg]# cd AdapterExamples/big-data/kafka/[root@WH0PRDBRP00AP0013 kafka]# lscustom_kafka_producer.properties kafka.props rkafka.prmcustom_kafka_prod... 阅读全文

posted @ 2017-08-31 00:18 月饼馅饺子 阅读(1620) 评论(0) 推荐(0)

HDFS handler
摘要:http://docs.oracle.com/goldengate/bd1221/gg-bd/GADBD/GUID-85A82B2E-CD51-463A-8674-3D686C3C0EC0.htm#GADBD-GUID-EE2D45B1-11E6-4B2E-B91F-2FB49F90900A 1.hive support12.2取消了hive handler,因为hdfs handler已经提供了... 阅读全文

posted @ 2017-08-31 00:18 月饼馅饺子 阅读(1006) 评论(0) 推荐(0)

OGG FOR BIGDATA 安装(修正)
摘要:参考:http://docs.oracle.com/goldengate/bd1221/gg-bd/GADBD/toc.htm一、环境介绍源:centos6.5 oracle 11.20.4 OGG版本:12.2.0.1.1目标:OGG 版本Version 12.2.0.1二、配置源端数据库1.1 创建OGG用户并授权create user ggmgr identified by ggmgr ... 阅读全文

posted @ 2017-08-31 00:17 月饼馅饺子 阅读(1981) 评论(0) 推荐(0)

5.airflow问题
摘要:1. Traceback (most recent call last): File "/usr/bin/airflow", line 28, in args.func(args) File "/usr/lib/python2.7/site-packages/airflow/bin/cli.py", line 858, in serve_logs host='0.0.0... 阅读全文

posted @ 2017-08-31 00:16 月饼馅饺子 阅读(1420) 评论(0) 推荐(0)

3.Airflow使用
摘要:1. airflow简介2. 相关概念2.1 服务进程2.1.1. web server2.1.2. scheduler2.1.3. worker2.1.4. celery flower2.2 相关概念2.2.1. dag2.2.2.task2.2.3.Operator2.2.4 scheduler2.2.5.worker2.2.6.executor2.2.7.Task Instances2.2.... 阅读全文

posted @ 2017-08-31 00:14 月饼馅饺子 阅读(21223) 评论(0) 推荐(6)

4.airflow测试
摘要:1.测试sqoop任务1.1 测试全量抽取1.1.1.直接执行命令1.1.2.以shell文件方式执行sqoop或hive任务1.2 测试增量抽取2.测试hive任务3.总结 当前生产上的任务主要分为两部分:sqoop任务和hive计算任务,测试这两种任务,分别以shell文件和直接执行命令的方式来测试. 本次测试的表是airflow.code_library. 1.测试sqoop任务 1... 阅读全文

posted @ 2017-08-31 00:14 月饼馅饺子 阅读(3208) 评论(0) 推荐(0)

1.airflow的安装
摘要:1.环境准备1.1 安装环境1.2 创建用户2.安装airflow2.1 安装python2.2 安装pip2.3 安装数据库2.4 安装airflow2.4.1 安装主模块2.4.2 安装数据库模块、密码模块2.5 配置airflown2.5.1 设置环境变量2.5.2 修改配置文件3. 启动airflow3.1 初始化数据库3.2 创建用户3.3 启动airflow4.执行任务5.安装cele... 阅读全文

posted @ 2017-08-31 00:13 月饼馅饺子 阅读(13165) 评论(0) 推荐(1)

2.airflow参数简介
摘要:比较重要的参数: 参数 默认值 说明 airflow_home /home/airflow/airflow01 airflow home,由环境变量$AIRFLOW_HOME决定 dags_folder /home/airflow/airflow01/dags dag python文件目录 base_log_folder /home... 阅读全文

posted @ 2017-08-31 00:13 月饼馅饺子 阅读(7643) 评论(0) 推荐(0)

KETTLE元数据表
摘要:表名 说明 R_CLUSTER R_CLUSTER_SLAVE R_CONDITION R_DATABASE 数据库连接信息 R_DATABASE_ATTRIBUTE 数据库属性 R_DATABASE_CONTYPE 连接类型:Native (JDBC) JDBC等 R_DATABASE_TYPE... 阅读全文

posted @ 2017-08-31 00:11 月饼馅饺子 阅读(1137) 评论(0) 推荐(0)

KETTLE监控
摘要:kettle单实例环境下自身没有监控工具,但在集群下自带了监控工具。一、集群自带的监控kettle自带的集群监控工具可以监控转换的执行情况。配置好集群后,打开浏览器:输入http://localhost:8080,输入子服务器的用户名和密码进入后,点击show status:点击转换名称可以看到转换的详情:该方式有三个缺点:(1)无法监控job的执行情况。(2)另外,如果一个转换不使用集群执行,也... 阅读全文

posted @ 2017-08-31 00:09 月饼馅饺子 阅读(2016) 评论(0) 推荐(0)

KETTLE设置变量
摘要:一、kettle变量类型kettle变量分为:1.环境变量通过 set variables组件设置变量,范围可以是:JVM变量、作业变量、父作业变量、根作业变量。使用时通过${var}或 %%var%%变量方式引用变量2.属性文件变量在.kettle目录下的kettle.property文件中设置,可kettle中可以引用3.命令行参数(相当于位置参数)命令行参数是指用pan执行转换时传入的参数,... 阅读全文

posted @ 2017-08-31 00:09 月饼馅饺子 阅读(6757) 评论(0) 推荐(0)

KETTLE集群搭建
摘要:KETTLE集群搭建 说明:本文档基于kettle5.4 一、集群的原理与优缺点1.1集群的原理 Kettle集群是由一个主carte服务器和多个从carte服务器组成的,类似于master-slave结构,不同的是’master’处理具体任务,只负责任务的分发和收集运行结果。Master carte结点收到请求后,把任务分成多个部分交给slave carte执行,slave执行完... 阅读全文

posted @ 2017-08-31 00:08 月饼馅饺子 阅读(462) 评论(0) 推荐(0)

KETTLE并行
摘要:1.转换的并行转换的并行是改变复制的数量上面的转换相当于下面的:实际是把一个任务拆成三部分执行,相当于在一个数据库连接中做了三次查询,数据库连接的开销没有增加,但是有三个进程一起执行。2.job的并行执行只需要在"START"设置即可。建议:将job的条目都做成子job.(To do this, we suggest you wrap up the parallel work in a separ... 阅读全文

posted @ 2017-08-31 00:07 月饼馅饺子 阅读(980) 评论(0) 推荐(0)

KETTLE:mongdb与mysql互传数据
摘要:注:部分内容引用了 http://blog.sina.com.cn/s/blog_4ac9f56e0101g881.html1、mongodb传数据到mysql1)在kettle中,mongodb input组件。2)编辑组件输入连接信息选择数据库写查询语句选择字段。上面的复选框选择是否输入json格式,这时不选。点击get fileds,获取字段对应关系。$代表根目录.代表子目录[]代表数组中的... 阅读全文

posted @ 2017-08-31 00:06 月饼馅饺子 阅读(1265) 评论(0) 推荐(0)

6.azkban的监控
摘要:azkaban自带的监控flow自带的邮件功能SLA总结写程序监控job情况监控azkaban的元数据库使用azkaban API监控总结 azkaban自带的监控 azkban目前仅仅支持邮件监控,又分两个部分: flow自带的邮件功能 First failure 当flow中出现第一个failure时发邮件 Flow finished 在flow执行完后,有错误再出邮件 ... 阅读全文

posted @ 2017-08-30 23:36 月饼馅饺子 阅读(1570) 评论(0) 推荐(0)

5.azkaban权限管理
摘要:权限简介 user 登录azkaban的用户 注意,如果不给用户roles groups,则用户就是普通用户,只能创建\查看\执行\调度自己的任务,不能看别人的 group group:用户的集合,给该group赋权限或者role,则组内用户都有该权限 权限 azkaban有 以下几种权限: 注意,这些权限都是ANY,即能对别人进行操作 role role:一组权限的集合,... 阅读全文

posted @ 2017-08-30 23:35 月饼馅饺子 阅读(981) 评论(0) 推荐(0)

3.azkaban3.0测试
摘要:测试目标 azkaban多executor下flow的分配方式 azkaban可以同时执行的flow\job个数 azkaban单个job最小使用的内存 相关配置 executor最大线程数: executor.maxThreads=50 executor同时执行的flow最大数 executor.flow.threads =30 executor每个flow最多同时执行的job数 ... 阅读全文

posted @ 2017-08-30 23:35 月饼馅饺子 阅读(988) 评论(0) 推荐(0)

2.azkaban3.0安装
摘要:安装规划安装azkban1.安装配置数据库2.下载安装web server3.安装mulit executor4.安装azkaban插件AZKABAN参数安装出现的问题 安装规划 IP 角色 端口 10.31.1.88 azkaban web server https://10.31.1.88:8443 http://10.31.1.88:8081 ... 阅读全文

posted @ 2017-08-30 23:34 月饼馅饺子 阅读(3074) 评论(0) 推荐(0)

1.编译azkaban
摘要:1.下载azkaban的源码 https://github.com/azkaban/azkaban.git 然后解压得到azkaban-master.zip,解压:unzip azkaban-master.zip 2.编译源码 进入azkaban-master目录,执行 # Build Azkaban ./gradlew build # Clean the build ./gradle... 阅读全文

posted @ 2017-08-30 23:34 月饼馅饺子 阅读(2662) 评论(0) 推荐(0)

十六:The YARN Service Registry
摘要:yarn 服务注册功能是让长期运行的程序注册为服务一直运行。yarn中运行的程序分为两类,一类是短程序,一类一直运行的长程序.第二种也称为服务。yarn服务注册就是让应用程序能把自己注册为服务,如hbase本节是比较高级,以后再研究~来自为知笔记(Wiz) 阅读全文

posted @ 2017-08-30 23:32 月饼馅饺子 阅读(323) 评论(0) 推荐(0)

十四:Using CGroups with YARN
摘要:Cgroups可以控制linux 上应用程序的资源(内存、CPU)使用,yarn可以使用Cgroups来CPU使用。Cgroups的配置,在yarn-site.xml中设置:1)启用Cgroups:Configuration NameDescriptionyarn.nodemanager.container-executor.classThis should be set to “org.... 阅读全文

posted @ 2017-08-30 23:32 月饼馅饺子 阅读(800) 评论(0) 推荐(0)

十二:NodeManager
摘要:NM负责启动和管理节点上的containers。AM通过containers来运行任务。Health Checker Service 创建检查服务 NM运行一个检查服务来检查节点的状态,该服务可以使用用户自定义的检查脚本。如果节点检查不通过,NM通过heart beat通知RM,RM将不再使用该节点上新增的container。Disk Checker 磁盘检查 disk checker... 阅读全文

posted @ 2017-08-30 23:31 月饼馅饺子 阅读(768) 评论(0) 推荐(0)

十 Writing YARN Applications
摘要:本节介绍: 使用yarn 高级提交写yarn应用程序。其实已经yarn底层API。MR计算框架对底层的API实现了封装。高级提交指直接使用yarn的三种接口来提交应用程序:1)YarnClient 通过该接口使用客户端和RM通信2)AMRMClientAsync AM RM使用该接口通信3)NMClientAsync AM NM使用该接口通信这三个接口封装了三种协议:ApplicationC... 阅读全文

posted @ 2017-08-30 23:30 月饼馅饺子 阅读(364) 评论(0) 推荐(0)

八:The YARN Timeline Server
摘要:一、Overview 介绍 yarn timeline server用于存储和检查应用程序过去和现在的信息(比如job history server)。有两个功能:1.Persisting Application Specific Information 保存应用程序特定的信息 收集和检索应用程序或者框架的特定信息。如装mr任务的map\reduce数量通过TimeClient发布到T... 阅读全文

posted @ 2017-08-30 23:29 月饼馅饺子 阅读(3554) 评论(0) 推荐(0)

六:YARN Node Labels
摘要:参考:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-label-based-scheduling/ 为不同的DATANODE打标签,通过标签来实现不同的资源队列.比如有10台128G的内存跑MR任务,后来又加了10台256G的内存跑SPARK,可分别设置为不同的标签,如mr spark,提交mr spakr任务时分别提交到mr spark... 阅读全文

posted @ 2017-08-30 23:28 月饼馅饺子 阅读(466) 评论(0) 推荐(0)

七:Web Application Proxy
摘要:yarn自带了web接口,默认是和RM一起的(8088端口)。但是为了减少从web接口受到的攻击,可以把Web接口单独放在别的机器上。设置下web代理就行了ConfigurationsConfiguration PropertyDescriptionyarn.web-proxy.addressThe address for the web proxy as HOST:PORT, if this i... 阅读全文

posted @ 2017-08-30 23:28 月饼馅饺子 阅读(1761) 评论(0) 推荐(0)

五:ResourceManager High Availability RM 高可用
摘要:RM有单点失败的风险,但是可以做HA。 RMs HA通过master/standby这种结构实现,一个master是active的,其它standby是inactive的。可能通过命令行切换主备节点,也可以在遇到问题时自动切换。手动切换: 自动切换失效时,管理员可以执行手动切换。步骤是:先把原来active的RM切换为inactive,然后把一个standby的RM切换为active,通过y... 阅读全文

posted @ 2017-08-30 23:27 月饼馅饺子 阅读(977) 评论(0) 推荐(0)

四:ResourceManger Restart
摘要:概述:RM是yarn中最重要的组件。但是只有一个RM,因此存在单点失败的问题。RM的重启有两种方式:1.(Non-work-preserving RM restart) 不保留工作状态的重启 这种情况下,RM把应用(application)的状态保存在一个插件化的state-store里,等RM重启后,RM重新加载这些状态,然后kick之前正在执行的任务,用户不必重新提交任务。2.(work... 阅读全文

posted @ 2017-08-30 23:26 月饼馅饺子 阅读(376) 评论(0) 推荐(0)

三:Fair Scheduler 公平调度器
摘要:参考资料: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html http://han-zw.iteye.com/blog/2322189 (转载其部分内容) 1.介绍2.队列分层3.配置3.1配置yarn-site.xml3.2 Allocation file格式3.3 队... 阅读全文

posted @ 2017-08-30 23:24 月饼馅饺子 阅读(3065) 评论(0) 推荐(0)

一:yarn 介绍
摘要:yarn的了出现主要是为了拆分jobtracker的两个核心功能:资源管理和任务监控,分别对应resouceManager(RM)和applicationManager(AM).yarn中的任务可以传统的mapreduce任务,或者是DAG任务。 yarn的架构:client向RM提交任务,RM向各个NM请求资源,NM响应后,RM为任务分配资源,得到资源的后调度器启动AM,AM为任务... 阅读全文

posted @ 2017-08-30 23:23 月饼馅饺子 阅读(345) 评论(0) 推荐(0)

二 Capacity Scheduler 计算能力调度器
摘要:官网的写的太难懂,参考:http://www.360doc.com/content/14/0603/14/14935022_383254798.shtmlCapacity Scheduler 一种可共享、多租户、用户友好的调度器。太过于复杂,略来自为知笔记(Wiz) 阅读全文

posted @ 2017-08-30 23:23 月饼馅饺子 阅读(165) 评论(0) 推荐(0)

2.hbase原理(未完待续)
摘要:hbase简介相关概念hmsterhregionserver表regionhstorememstorestorefilehfileblockcacheWALminorcompactmajorcompactregion splithbase架构zookeepermasterregionserverhbase的表表结构表的读写hbase的元数据表-ROOT-hbase:metahbase:meta表结... 阅读全文

posted @ 2017-08-30 23:22 月饼馅饺子 阅读(363) 评论(0) 推荐(0)

从hive导入到oracle(Hcatalog)
摘要:1.使用catalog的情况下:sqoop export --table tableName2 \ #oracle表--connect jdbc:oracle:thin:@127.0.0.1:1521:ORCL \ --username username \ #oracle用户--password password \ #密码--hcatalog-database DB1 \ #cata... 阅读全文

posted @ 2017-08-30 23:21 月饼馅饺子 阅读(4397) 评论(0) 推荐(0)

1.安装hbase
摘要:参考:http://hbase.apache.org/book.html#quickstart一.下载hbase去apache下载hbase,然后解压到/usr/local/hbase-1.1.3,设置HBASE_HOME=/usr/local/hbase-1.1.3二.安装单机版本修改conf/hbase-site.xml加入: hbase.rootdir file:///hom... 阅读全文

posted @ 2017-08-30 23:21 月饼馅饺子 阅读(203) 评论(0) 推荐(0)

从oracle导入hive
摘要:sqoop import --connect jdbc:oracle:thin:@10.39.1.43:1521/rcrm --username bi_query --password ####################### --query " \select \item_id,\edit_id,\tenant_id,\create_date,\model_id,\parent_id,\c... 阅读全文

posted @ 2017-08-30 23:20 月饼馅饺子 阅读(703) 评论(0) 推荐(0)

sqoop-1.4.6安装与使用
摘要:一、安装1.下载sqoop-1.4.6-bin.tar.gz并解压2.修改conf/sqoop-env.sh,设置如下变量:export HADOOP_COMMON_HOME=/usr/local/hadoop-2.6.3export HADOOP_MAPRED_HOME=/usr/local/hadoop-2.6.3export HBASE_HOME=/usr/local/hbase-1.1.3... 阅读全文

posted @ 2017-08-30 23:19 月饼馅饺子 阅读(462) 评论(0) 推荐(0)

安装sqoop 1.99.4
摘要:参考http://sqoop.apache.org/docs/1.99.4/Installation.html1.简介sqoop2分为server和client两部分。server作为maprde的客户端,必须安装在hadoop集群上。client无需安装在hadoop集群上,任何机器均可。2.安装server server必须安装在hadoop结点上,namenode和datanode均可... 阅读全文

posted @ 2017-08-30 23:12 月饼馅饺子 阅读(476) 评论(0) 推荐(0)

安装HIVE
摘要:参考:https://cwiki.apache.org/confluence/display/Hive/GettingStarted 1.下载hive安装包 到apache官网或者其它地方下载hive压缩包,然后解压到/usr/local/hive-2.0.02.依赖 hive依赖以下内容:1)java 1.7或者更高版本2)hadoop2.x,hadoop1.x(只支持hive1)3... 阅读全文

posted @ 2017-08-30 23:11 月饼馅饺子 阅读(142) 评论(0) 推荐(0)

分区表
摘要:create table IF NOT EXISTS p (//创建分区表id int,dt string,other string) PARTITIONED BY(year string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;hive> desc p; //查看表结构OKid int ... 阅读全文

posted @ 2017-08-30 23:10 月饼馅饺子 阅读(1269) 评论(0) 推荐(0)

hive创建外部表
摘要:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED... 阅读全文

posted @ 2017-08-30 23:10 月饼馅饺子 阅读(650) 评论(0) 推荐(0)

hadoop参数(未完).md
摘要:我X,有违禁词.麻烦提醒一下哪个词好吗? 阅读全文

posted @ 2017-08-30 23:08 月饼馅饺子 阅读(121) 评论(0) 推荐(0)

十一:Centralized Cache Management in HDFS 集中缓存管理
摘要:集中的HDFS缓存管理,该机制可以让用户缓存特定的hdfs路径,这些块缓存在堆外内存中。namenode指导datanode完成这个工作。Centralized cache management in HDFS has many significant advantages.Explicit pinning prevents frequently used data from being ... 阅读全文

posted @ 2017-08-30 22:18 月饼馅饺子 阅读(501) 评论(0) 推荐(0)

十三:Transparent Encryption in HDFS(转)
摘要:透明加密:http://blog.csdn.net/linlinv3/article/details/44963429 hadoop透明加密 kms简介 Hadoop Key Management Server(KMS)是一个基于HadoopKeyProvider API编写的密钥管理服务器。他提供了一个client和一个server组件,client和server之间基于HTTP协议... 阅读全文

posted @ 2017-08-30 22:18 月饼馅饺子 阅读(952) 评论(0) 推荐(0)

十:HDFS Short-Circuit Local Reads 短路本地读取
摘要:当client请求数据时,datanode会读取数据然后通过TCP协议发送给client.short-circuit绕过了datanode直接读取数据。short-circuit的前提是client和数据在同一个结点上。 short-circuit需要libhadoop.so,一个本地库。该功能使用unix套接字,client和node通过套接字连接,需要对这个套接字设置一个路径,并... 阅读全文

posted @ 2017-08-30 22:17 月饼馅饺子 阅读(2110) 评论(0) 推荐(0)

七:HDFS Permissions Guide 权限
摘要:1.权限模式 简单:启动HDFS的操作系统用户即为超级用户,可以通过HADOOP_USER_NAME指定 kerberos:2.group mapping 组列表由group mapping service完成,该服务由hadoop.security.group.mapping参数决定,默认值是org.apache.hadoop.security.JniBasedUnixGro... 阅读全文

posted @ 2017-08-30 22:14 月饼馅饺子 阅读(1594) 评论(0) 推荐(0)

六: Image Viewer 离线镜像查看器
摘要:参考:http://hadoop.apache.org/docs/r2.6.3/hadoop-project-dist/hadoop-hdfs/HdfsImageViewer.html 离线镜像查看器用于查看HDFS镜像。hadoop2.4之前的镜像查看器与之后的不同,要查看2.4之前的,请用2.3的查看器,或者用oiv_legacy Command 命令。输出格式:1)web http(默... 阅读全文

posted @ 2017-08-30 22:10 月饼馅饺子 阅读(267) 评论(0) 推荐(0)

五:Edits Viewer离线日志查看器
摘要:离线日志查看器可以将二进制日志翻译成可读的文件(如XML),只有当hadoop集群停止时才能使用。输入文件支持的类型:XML和二进制。输出文件支持类型:XML 二进制 Stats(标准输出?) 使用方法:bash$ bin/hdfs oev -i edits -o edits.xmlFlagDescription[-i ; --inputFile] input fileSpecify... 阅读全文

posted @ 2017-08-30 22:08 月饼馅饺子 阅读(278) 评论(0) 推荐(0)

四:HDFS Snapshots
摘要:1.介绍 HDFS快照保存某个时间点的文件系统快照,可以是部分的文件系统,也可以是全部的文件系统。快照用来做数据备份和灾备.有以下特点:1.快照几乎是实时瞬间完成的2.只有在做快照时文件系统有修改才需要额外的内存3.datanode上的块不需要复制。快照文件记住块的列表和文件的大小4.对HDFS没有不利的影响。在文件系统有更改时做快照,不影响数据的写入读出,快照会根据当前块的数据减去变化的数... 阅读全文

posted @ 2017-08-30 22:07 月饼馅饺子 阅读(234) 评论(0) 推荐(0)

三:QJM HDFS高可用
摘要:本文介绍的是HDFS的一种HA方案。虽然有checkpoint node \backup node等,但是不能实现自动的failover.http://hadoop.apache.org/docs/r2.6.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html1.在2.0.0版本以下,namenode是单个的,如果na... 阅读全文

posted @ 2017-08-30 22:06 月饼馅饺子 阅读(523) 评论(0) 推荐(0)

二:HDFS 命令指南
摘要:命令具体选项请参考: http://hadoop.apache.org/docs/r2.6.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html 1.HDFS命令通过bin/hdfs执行,语法如下: hdfs [--config confdir] [ 阅读全文

posted @ 2017-08-30 22:04 月饼馅饺子 阅读(369) 评论(0) 推荐(0)

一:HDFS 用户指导
摘要:1.hdfs的牛逼特性 Hadoop, including HDFS, is well suited for distributed storage and distributed processing using commodity hardware. It is fault tolerant, 阅读全文

posted @ 2017-08-30 21:56 月饼馅饺子 阅读(503) 评论(0) 推荐(0)

卸载CDH5.7
摘要:CDH5.7卸载1.记录用户数据目录2.关闭所有服务2.1在CM中,选择某个集群,然后停止集群。2.2逐个关闭CDH中的服务3.删除parcels4.删除集群5.卸载Cloudera manager server5.1 如果是用Cloudera-manager-installer.bin 文件安装5.2 如果非以上安装6.卸载Cloudera manager agent 和其管理的软件7.在主机上... 阅读全文

posted @ 2017-08-30 21:54 月饼馅饺子 阅读(746) 评论(0) 推荐(0)

CDH问题集
摘要:1.在CM中添加主机报JDK错误手动在机器上安装oracle-jdk1.7+update64.然后在CM中选择不安装oracle-jdk即可.2.HostMoinitor无法与server联系查找了多方资料,依然没有找到问题./var/log/cloudera-scm-aget/下是日志文件/var/run/cloudera-scm-aget/是运行时文件最后从上面标黄色的地方感觉到是网络问题./... 阅读全文

posted @ 2017-08-30 21:54 月饼馅饺子 阅读(986) 评论(0) 推荐(0)

2.重新安装CM服务
摘要:步骤1.停止CM服务2.删除CM服务3.添加CM服务4.测试数据库 步骤 1.停止CM服务 2.删除CM服务 没有发现可以单独删除某一项CM服务,必须全部删除 3.添加CM服务 4.测试数据库 如果报这个错误,把相关的jar包放在: /usr/share/java/mysql-connector-java.jar /usr/share/java/oracle-con... 阅读全文

posted @ 2017-08-30 21:53 月饼馅饺子 阅读(594) 评论(0) 推荐(0)

1.安装CDH5.12.x
摘要:安装方式安装前准备安装步骤安装过程修改/etc/hosts设置ssh 互信修改linux 系统设置安装JDK1.8安装python2.7安装mysql/postgreysql数据库安装ntp设置本地yum源下载CDH parcels包安装CM使用yum安装CM安装agent进入CDH添加节点使用CM添加节点手动安装agent远程yum源安装节点服务安装中出现的问题 安装方式 CDH有三种安装方... 阅读全文

posted @ 2017-08-30 21:52 月饼馅饺子 阅读(2106) 评论(0) 推荐(0)

CDH组件目录\主机资源分配\端口
摘要:目录:/var/log/cloudera-scm-installer : 安装日志目录。/var/log/* : 相关日志文件(相关服务的及CM的)。/usr/share/cmf/ : 程序安装目录。/usr/lib64/cmf/ : Agent程序代码。/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。/usr/bin/postgres : 内嵌数据库... 阅读全文

posted @ 2017-08-30 21:51 月饼馅饺子 阅读(1431) 评论(2) 推荐(0)

5.安装hbase
摘要:下载安装包并解压设置hbase环境变量配置hbase-site.xml启动hbase检测hbase启动情况测试hbase shell 下载安装包并解压 https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.3.1/hbase-1.3.1-bin.tar.gz ….. [hbase@hadoop1 opt]$ tar -zxvf hbase-1.... 阅读全文

posted @ 2017-08-30 21:49 月饼馅饺子 阅读(334) 评论(0) 推荐(0)

4.安装hive
摘要:下载安装包并解压安装元数据库配置hive添加hvie环境变量修改hive-env.sh修改hive配置文件初始化metastore使用hive cli配置hivemestore配置hiveserver2连接使用beeline服务器配置和客户端配置 本系列的前几篇目录都是快速安装环境,因为我在家需要一 阅读全文

posted @ 2017-08-30 21:47 月饼馅饺子 阅读(796) 评论(0) 推荐(0)

3.配置HDFS HA
摘要:安装zookeeper下载zookeeper编辑zookeeper配置文件创建myid文件启动zookeeper配置HDFS HA配置手动HA配置自动HA启动HDFS HA namenode负责管理整个hdfs集群,如果namenode故障则集群将不可用.因此有必须实现namenode高可用. hdfs的高可用原理参考: HADOOP(二):hdfs 高可用原理 zookeeper简介: ... 阅读全文

posted @ 2017-08-30 21:46 月饼馅饺子 阅读(1272) 评论(0) 推荐(0)

1.linux环境配置
摘要:首先说一下,这里是虚拟机环境. 1.用vbox安装centos6.8-mini 注意不要使用复制的方式安装,复制的虚拟机网络不通 安装如下: 主机 ip 角色 内存 hadoop1 192.168.0.10 namenode,HMASTER 2G hadoop2 192.168.0.11 namenode,HiverServer2... 阅读全文

posted @ 2017-08-30 21:45 月饼馅饺子 阅读(332) 评论(0) 推荐(0)

2.安装hdfs yarn
摘要:下载hadoop压缩包设置hadoop环境变量设置hdfs环境变量设置yarn环境变量设置mapreduce环境变量修改hadoop配置设置core-site.xml设置hdfs-site.xml设置yarn-site.xml设置mapred-site.xml设置slave文件分发配置启动hdfs格式化namenode启动hdfs检查hdfs启动情况启动yarn测试mr任务hadoop本地库hdf... 阅读全文

posted @ 2017-08-30 21:45 月饼馅饺子 阅读(666) 评论(0) 推荐(0)

关于博客的格式
摘要:由于我的博客主要是由为知笔记推过来的,博客圆的markdown插件太久太久没更新不支持新的markdown语法,导致与为知笔记的markdown语法不兼容,看起来十分的混乱。如果你需要,可以给你源文件或者PDF。 阅读全文

posted @ 2017-08-30 21:39 月饼馅饺子 阅读(273) 评论(0) 推荐(0)

hadoop问题集(1)
摘要:参考: http://dataunion.org/22887.html 1.mapreduce_shuffle does not exist 执行任何时报错: 原因是yarn中没有aux的信息。在yarn-site.xml中加入: 2.yarn启动正常但是WEB打不开 netstat -a|grep 阅读全文

posted @ 2017-08-30 21:11 月饼馅饺子 阅读(4352) 评论(0) 推荐(0)

hadoop问题集(2)
摘要:28. Sqoop: java.lang.NullPointerException sqoop import --connect jdbc:oracle:thin:@//xxxx:1521/aps --username xxx --password 'xxxx' --query " select R 阅读全文

posted @ 2017-08-30 21:11 月饼馅饺子 阅读(988) 评论(0) 推荐(0)

HADOOP (十一).安装hbase
摘要:下载安装包并解压设置hbase环境变量配置hbase-site.xml启动hbase检测hbase启动情况测试hbase shell 下载安装包并解压 https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.3.1/hbase-1.3.1-bin.tar.gz ….. [hbase@hadoop1 opt]$ tar -zxvf hbase-1.... 阅读全文

posted @ 2017-08-30 21:09 月饼馅饺子 阅读(305) 评论(0) 推荐(0)

HADOOP docker(十):hdfs 结构体系
摘要:1.简介2.namenode和datanode3.The File System Namespace 文件系统命名空间4.Data Replication 数据复制5.Replica Placement: The First Baby Steps 复制块放置:初步的想法6.Replica Selection 复制块的选择7.Safemode 安全模式8.The Persistence of... 阅读全文

posted @ 2017-08-30 21:04 月饼馅饺子 阅读(394) 评论(0) 推荐(0)

HADOOP docker(九):hdfs权限
摘要:1. 概述2. 用户身份标识3. 组映射4.关于权限的实现5.文件系统API的变更6.应用程序shell的变更7.超级用户8.ACLs9.ACL 文件系统API10.ACL命令11.参数配置12.总结 骚年们,我们今天来学习hdfs的权限~ 请忽略4,5两段内容~ 文档:http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hado... 阅读全文

posted @ 2017-08-30 21:02 月饼馅饺子 阅读(1194) 评论(0) 推荐(0)

HADOOP docker(八):hadoop本地库
摘要:前言2. Native Hadoop Library3. 使用本地库4. 本地库组件5. 支持的平台6. 下载7. 编译8. 运行时观察9. 检查本地库10. 如果共享本地库 小伙伴还记得每次启动hdfs就会报can't find native libriaries吗?今天我们就来聊聊这个~ 文档:http://hadoop.apache.org/docs/r2.7.3/hadoop-proj... 阅读全文

posted @ 2017-08-30 21:01 月饼馅饺子 阅读(650) 评论(0) 推荐(0)

HADOOP docker(七):hive权限管理
摘要:1. hive权限简介1.1 hive中的用户与组1.2 使用场景1.3 权限模型1.3 hive的超级用户2. 授权管理2.1 开启权限管理2.2 实现超级用户2.3 实现hiveserver2用户名密码2.4 授权2.4.1 角色管理2.4.2 权限管理2.4.3 操作与权限对应关系 文档链接: 阅读全文

posted @ 2017-08-30 20:59 月饼馅饺子 阅读(2010) 评论(0) 推荐(0)

HADOOP docker(五):hadoop用户代理 Proxy user
摘要:1.hadoop用户代理简介2.配置3.实验 1.hadoop用户代理简介 hadoop用户代理功能的作用是让超级用户superuser模拟一个普通用户来执行任务。比如用户joe通过oozie提交一个任务到集群上,如果不设置用户代理,那么就会以启动oozie(oozie)进程的用户来提交任务,这样任务就显示为oozie,无法判断是哪个用户提交了任务。当开始proxy功能后,会以superuse... 阅读全文

posted @ 2017-08-30 20:57 月饼馅饺子 阅读(5281) 评论(0) 推荐(0)

HADOOP docker(六):hive简易使用指南
摘要:前言1.hive简介1.1 hive组件与相应功能:1.2 hive的表类型1.3 分区表1.3 分隔符1.4 hive的数据存储2.数据类型2.1 基本数据类型2.1 复杂数据类型2.3 NULL3.基本操作3.1 数据库操作3.2 表操作3.3 视图3.4 数据导入导出3.hsql3.1 hsql基本操作3.2 hive内置函数3.2 自定义函数3.3 注册函数4.hive权限管理4.1 权限... 阅读全文

posted @ 2017-08-30 20:57 月饼馅饺子 阅读(954) 评论(0) 推荐(0)

HADOOP docker(四):安装hive
摘要:1.hive简介2.安装hive2.1 环境准备2.1.1 下载安装包2.1.2 设置hive用户的环境变量2.1.3 hive服务端配置文件2.1.4 hive客户端配置文件2.1.4 分发hive配置文件2.2 启动hive2.2.1 初始化数据库2.2.2 创建HDFS目录2.2.3 启动hive3.总结 getting start: https://cwiki.apache.org/c... 阅读全文

posted @ 2017-08-30 20:56 月饼馅饺子 阅读(877) 评论(0) 推荐(1)

HADOOP docker(二):HDFS 高可用原理
摘要:1.环境简述2.QJM HA简述2.1为什么要做HDFS HA?2.2 HDFS HA的方式2.2 HSFS HA的结构2.3 机器要求3.部署HDFS HA3.1 详细配置3.2 部署HDFS HA4. HDFS HA的管理5.自动切换5.1 使用zookeeper实现HA原理5. 部署hdfs自 阅读全文

posted @ 2017-08-30 20:52 月饼馅饺子 阅读(1046) 评论(0) 推荐(0)

导航