2017年8月30日

6.azkban的监控

摘要: azkaban自带的监控flow自带的邮件功能SLA总结写程序监控job情况监控azkaban的元数据库使用azkaban API监控总结 azkaban自带的监控 azkban目前仅仅支持邮件监控,又分两个部分: flow自带的邮件功能 First failure 当flow中出现第一个failure时发邮件 Flow finished 在flow执行完后,有错误再出邮件 ... 阅读全文

posted @ 2017-08-30 23:36 月饼馅饺子 阅读(1401) 评论(0) 推荐(0) 编辑

3.azkaban3.0测试

摘要: 测试目标 azkaban多executor下flow的分配方式 azkaban可以同时执行的flow\job个数 azkaban单个job最小使用的内存 相关配置 executor最大线程数: executor.maxThreads=50 executor同时执行的flow最大数 executor.flow.threads =30 executor每个flow最多同时执行的job数 ... 阅读全文

posted @ 2017-08-30 23:35 月饼馅饺子 阅读(910) 评论(0) 推荐(0) 编辑

5.azkaban权限管理

摘要: 权限简介 user 登录azkaban的用户 注意,如果不给用户roles groups,则用户就是普通用户,只能创建\查看\执行\调度自己的任务,不能看别人的 group group:用户的集合,给该group赋权限或者role,则组内用户都有该权限 权限 azkaban有 以下几种权限: 注意,这些权限都是ANY,即能对别人进行操作 role role:一组权限的集合,... 阅读全文

posted @ 2017-08-30 23:35 月饼馅饺子 阅读(921) 评论(0) 推荐(0) 编辑

2.azkaban3.0安装

摘要: 安装规划安装azkban1.安装配置数据库2.下载安装web server3.安装mulit executor4.安装azkaban插件AZKABAN参数安装出现的问题 安装规划 IP 角色 端口 10.31.1.88 azkaban web server https://10.31.1.88:8443 http://10.31.1.88:8081 ... 阅读全文

posted @ 2017-08-30 23:34 月饼馅饺子 阅读(3029) 评论(0) 推荐(0) 编辑

1.编译azkaban

摘要: 1.下载azkaban的源码 https://github.com/azkaban/azkaban.git 然后解压得到azkaban-master.zip,解压:unzip azkaban-master.zip 2.编译源码 进入azkaban-master目录,执行 # Build Azkaban ./gradlew build # Clean the build ./gradle... 阅读全文

posted @ 2017-08-30 23:34 月饼馅饺子 阅读(2635) 评论(0) 推荐(0) 编辑

十六:The YARN Service Registry

摘要: yarn 服务注册功能是让长期运行的程序注册为服务一直运行。yarn中运行的程序分为两类,一类是短程序,一类一直运行的长程序.第二种也称为服务。yarn服务注册就是让应用程序能把自己注册为服务,如hbase本节是比较高级,以后再研究~来自为知笔记(Wiz) 阅读全文

posted @ 2017-08-30 23:32 月饼馅饺子 阅读(311) 评论(0) 推荐(0) 编辑

十四:Using CGroups with YARN

摘要: Cgroups可以控制linux 上应用程序的资源(内存、CPU)使用,yarn可以使用Cgroups来CPU使用。Cgroups的配置,在yarn-site.xml中设置:1)启用Cgroups:Configuration NameDescriptionyarn.nodemanager.container-executor.classThis should be set to “org.... 阅读全文

posted @ 2017-08-30 23:32 月饼馅饺子 阅读(770) 评论(0) 推荐(0) 编辑

十二:NodeManager

摘要: NM负责启动和管理节点上的containers。AM通过containers来运行任务。Health Checker Service 创建检查服务 NM运行一个检查服务来检查节点的状态,该服务可以使用用户自定义的检查脚本。如果节点检查不通过,NM通过heart beat通知RM,RM将不再使用该节点上新增的container。Disk Checker 磁盘检查 disk checker... 阅读全文

posted @ 2017-08-30 23:31 月饼馅饺子 阅读(714) 评论(0) 推荐(0) 编辑

十 Writing YARN Applications

摘要: 本节介绍: 使用yarn 高级提交写yarn应用程序。其实已经yarn底层API。MR计算框架对底层的API实现了封装。高级提交指直接使用yarn的三种接口来提交应用程序:1)YarnClient 通过该接口使用客户端和RM通信2)AMRMClientAsync AM RM使用该接口通信3)NMClientAsync AM NM使用该接口通信这三个接口封装了三种协议:ApplicationC... 阅读全文

posted @ 2017-08-30 23:30 月饼馅饺子 阅读(343) 评论(0) 推荐(0) 编辑

八:The YARN Timeline Server

摘要: 一、Overview 介绍 yarn timeline server用于存储和检查应用程序过去和现在的信息(比如job history server)。有两个功能:1.Persisting Application Specific Information 保存应用程序特定的信息 收集和检索应用程序或者框架的特定信息。如装mr任务的map\reduce数量通过TimeClient发布到T... 阅读全文

posted @ 2017-08-30 23:29 月饼馅饺子 阅读(3363) 评论(0) 推荐(0) 编辑

六:YARN Node Labels

摘要: 参考:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-label-based-scheduling/ 为不同的DATANODE打标签,通过标签来实现不同的资源队列.比如有10台128G的内存跑MR任务,后来又加了10台256G的内存跑SPARK,可分别设置为不同的标签,如mr spark,提交mr spakr任务时分别提交到mr spark... 阅读全文

posted @ 2017-08-30 23:28 月饼馅饺子 阅读(442) 评论(0) 推荐(0) 编辑

七:Web Application Proxy

摘要: yarn自带了web接口,默认是和RM一起的(8088端口)。但是为了减少从web接口受到的攻击,可以把Web接口单独放在别的机器上。设置下web代理就行了ConfigurationsConfiguration PropertyDescriptionyarn.web-proxy.addressThe address for the web proxy as HOST:PORT, if this i... 阅读全文

posted @ 2017-08-30 23:28 月饼馅饺子 阅读(1679) 评论(0) 推荐(0) 编辑

五:ResourceManager High Availability RM 高可用

摘要: RM有单点失败的风险,但是可以做HA。 RMs HA通过master/standby这种结构实现,一个master是active的,其它standby是inactive的。可能通过命令行切换主备节点,也可以在遇到问题时自动切换。手动切换: 自动切换失效时,管理员可以执行手动切换。步骤是:先把原来active的RM切换为inactive,然后把一个standby的RM切换为active,通过y... 阅读全文

posted @ 2017-08-30 23:27 月饼馅饺子 阅读(902) 评论(0) 推荐(0) 编辑

四:ResourceManger Restart

摘要: 概述:RM是yarn中最重要的组件。但是只有一个RM,因此存在单点失败的问题。RM的重启有两种方式:1.(Non-work-preserving RM restart) 不保留工作状态的重启 这种情况下,RM把应用(application)的状态保存在一个插件化的state-store里,等RM重启后,RM重新加载这些状态,然后kick之前正在执行的任务,用户不必重新提交任务。2.(work... 阅读全文

posted @ 2017-08-30 23:26 月饼馅饺子 阅读(354) 评论(0) 推荐(0) 编辑

三:Fair Scheduler 公平调度器

摘要: 参考资料: http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html http://han-zw.iteye.com/blog/2322189 (转载其部分内容) 1.介绍2.队列分层3.配置3.1配置yarn-site.xml3.2 Allocation file格式3.3 队... 阅读全文

posted @ 2017-08-30 23:24 月饼馅饺子 阅读(2834) 评论(0) 推荐(0) 编辑

二 Capacity Scheduler 计算能力调度器

摘要: 官网的写的太难懂,参考:http://www.360doc.com/content/14/0603/14/14935022_383254798.shtmlCapacity Scheduler 一种可共享、多租户、用户友好的调度器。太过于复杂,略来自为知笔记(Wiz) 阅读全文

posted @ 2017-08-30 23:23 月饼馅饺子 阅读(154) 评论(0) 推荐(0) 编辑

一:yarn 介绍

摘要: yarn的了出现主要是为了拆分jobtracker的两个核心功能:资源管理和任务监控,分别对应resouceManager(RM)和applicationManager(AM).yarn中的任务可以传统的mapreduce任务,或者是DAG任务。 yarn的架构:client向RM提交任务,RM向各个NM请求资源,NM响应后,RM为任务分配资源,得到资源的后调度器启动AM,AM为任务... 阅读全文

posted @ 2017-08-30 23:23 月饼馅饺子 阅读(316) 评论(0) 推荐(0) 编辑

2.hbase原理(未完待续)

摘要: hbase简介相关概念hmsterhregionserver表regionhstorememstorestorefilehfileblockcacheWALminorcompactmajorcompactregion splithbase架构zookeepermasterregionserverhbase的表表结构表的读写hbase的元数据表-ROOT-hbase:metahbase:meta表结... 阅读全文

posted @ 2017-08-30 23:22 月饼馅饺子 阅读(337) 评论(0) 推荐(0) 编辑

1.安装hbase

摘要: 参考:http://hbase.apache.org/book.html#quickstart一.下载hbase去apache下载hbase,然后解压到/usr/local/hbase-1.1.3,设置HBASE_HOME=/usr/local/hbase-1.1.3二.安装单机版本修改conf/hbase-site.xml加入: hbase.rootdir file:///hom... 阅读全文

posted @ 2017-08-30 23:21 月饼馅饺子 阅读(184) 评论(0) 推荐(0) 编辑

从hive导入到oracle(Hcatalog)

摘要: 1.使用catalog的情况下:sqoop export --table tableName2 \ #oracle表--connect jdbc:oracle:thin:@127.0.0.1:1521:ORCL \ --username username \ #oracle用户--password password \ #密码--hcatalog-database DB1 \ #cata... 阅读全文

posted @ 2017-08-30 23:21 月饼馅饺子 阅读(4333) 评论(0) 推荐(0) 编辑

导航