2016 年 12月随笔档案 - Beeman_xia

常用表单的正则表达式

摘要：表单验证常用正则，非常不错，收集的相对比较完整，大家可以看看。1。^\d+$ //匹配非负整数（正整数 + 0） 2。^[0-9]*[1-9][0-9]*$ //匹配正整数 3。^((-\d+)|(0+))$ //匹配非正整数（负整数 + 0） 4。^-[0-9... 阅读全文

posted @ 2016-12-26 16:22 Beeman_xia 阅读(187) 评论(0) 推荐(0)

Azkaban 2.5.0 搭建和一些小问题

摘要：安装环境：系统环境： ubuntu-12.04.2-server-amd64安装目录： /usr/local/ae/ankabanJDK 安装目录： export JAVA_HOME=/usr/local/ae/jdk1.7.0_51Hadoop 安装目录 expor... 阅读全文

posted @ 2016-12-26 10:34 Beeman_xia 阅读(445) 评论(0) 推荐(0)

Python_Python遍历列表的四种方法

摘要：方式一：app_list = [1234, 5677, 8899]for app_id in app_list: print app_id输出： 1234 5677 8899方式二：app_list = [1234, 5677, 8899]for index,a... 阅读全文

posted @ 2016-12-25 21:32 Beeman_xia 阅读(1454) 评论(0) 推荐(0)

Hive中常用的查询命令

摘要：日志数据的统计处理在这里反倒没有什么特别之处，就是一些 SQL 语句而已，也没有什么高深的技巧，不过还是列举一些语句示例，以示 hive 处理数据的方便之处，并展示 hive 的一些用法。a) 为 hive 添加用户定制功能，自定义功能都位于 hiv... 阅读全文

posted @ 2016-12-24 22:45 Beeman_xia 阅读(1270) 评论(0) 推荐(0)

hive中UDF、UDAF和UDTF使用

摘要：Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，... 阅读全文

posted @ 2016-12-21 11:34 Beeman_xia 阅读(796) 评论(0) 推荐(0)

HIVE json格式数据的处理

摘要：转载：http://www.cnblogs.com/casicyuan/p/4375080.html今天要处理一个以json格式存储的数据，想要直接把json的各个项的数据存入HIVE表中。HIVE直接读入json的函数有两个：（1）get_json_object(s... 阅读全文

posted @ 2016-12-21 03:43 Beeman_xia 阅读(290) 评论(0) 推荐(0)

hive中order by,sort by, distribute by, cluster by作用以及用法

摘要：转载：http://www.360doc.com/content/15/0624/11/7673502_480315377.shtml1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局... 阅读全文

posted @ 2016-12-20 15:06 Beeman_xia 阅读(224) 评论(0) 推荐(0)

Hive简单安装

摘要：数据库的创建Hive1版本在此之前要安装好JDK,HADOOP，下载解压Hive在root下安装mysql:yum install mysql-server mysql-client //一般Mysql都是自带的在root下创建hadoop用户：1su到root下2启... 阅读全文

posted @ 2016-12-16 23:03 Beeman_xia 阅读(122) 评论(0) 推荐(0)

shuffle过程简介--笔记

摘要：数据保存在hdfs上拿到数据后分片处理输入到Map输出键值对写到缓存，满的时候溢写到磁盘缓存的数据写入磁盘的过程中，分区排序，合并多个磁盘文件归并通知Reduce任务拉取Map端的shuffle1输入数据和执行任务：分片后分配Map任务，每个任务分配100M缓存2写入... 阅读全文

posted @ 2016-12-16 22:35 Beeman_xia 阅读(241) 评论(0) 推荐(0)

hive的简单理解--笔记

摘要：Hive的理解数据仓库的工具 Hive仅仅是在hadoop上面包装了SQL；Hive的数据存储在hadoop上Hive的计算由MR进行Hive批量处理数据 Hive的特点1 可扩展性（hadoop）2 延展性3 容错性（MR）阅读全文

posted @ 2016-12-16 22:12 Beeman_xia 阅读(205) 评论(0) 推荐(0)

Shuffle过程的简单介绍

摘要：Shuffle是连接Map和Reduce的桥梁Shuffle分为Map端的Shuffle和Reduce端的ShuffleMap端的shuffle1输入数据和执行任务：分片后分配Map任务，每个任务分配100M缓存2写入缓存在溢写过程中：3溢写溢写比达到0.8后启动溢... 阅读全文

posted @ 2016-12-08 22:56 Beeman_xia 阅读(381) 评论(0) 推荐(0)

hadoop命令

摘要：1、查看指定目录下内容Hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打开某个已存在文件hadoop dfs –cat [file_path]eg:hadoop dfs -cat /user/wang... 阅读全文

posted @ 2016-12-08 20:01 Beeman_xia 阅读(105) 评论(0) 推荐(0)

YARN到底是怎么一回事？

摘要：文章思路：首先提出第一代MRv1（MapReduce Version1.0）的局限性，然后解释YARN是怎么克服这些局限性的，接着说了YARN的编程模型，说了YARN的组成，YARN的通信协议和YARN的运行过程。通过这样的描述来认识YARN的。MRv1的局限性YAR... 阅读全文

posted @ 2016-12-08 15:13 Beeman_xia 阅读(232) 评论(0) 推荐(0)

hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍

摘要：ApplicationMaster是什么？ApplicationMaster是一个框架特殊的库，对于Map-Reduce计算模型而言有它自己的ApplicationMaster实现，对于其他的想要运行在yarn上的计算模型而言，必须得实现针对该计算模型的Applica... 阅读全文

posted @ 2016-12-08 11:05 Beeman_xia 阅读(946) 评论(0) 推荐(0)

MapReduce简单分析

摘要：在Map端数据从Map中写入环形缓冲区，进行分区，分区时达到80%后溢出写入到磁盘，这几步同步进行中间有个Shuffle过程Reduce端执行完Map 后到Reduce内存中，进行sort和merge，生成溢出文件，很多的溢出文件合并（一次合并10个），Reduce文... 阅读全文

posted @ 2016-12-08 10:30 Beeman_xia 阅读(127) 评论(0) 推荐(0)

Hadoop 中最重要的两个模块

摘要：Hadoop 中最重要的两个模块HDFS 分布式的文件系统主节点：NameNodeSecondaryNamenodeResourceManager从节点：DataNodeNodeManagerMapReduce 分布式的并行计算框架job.submit();j... 阅读全文

posted @ 2016-12-07 21:21 Beeman_xia 阅读(461) 评论(0) 推荐(0)

Hadoop 新 MapReduce 框架 Yarn 详解

摘要：简介：本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架（Yarn) 原理，优势，运作机制和配置方法等；着重介绍新的 yarn 框架相对于原框架的差异及改进；并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hado... 阅读全文

posted @ 2016-12-07 21:15 Beeman_xia 阅读(113) 评论(0) 推荐(0)

YARN作业运行机制

摘要：在传统的MapReduce中, Jobtracker同时负责作业调度(将任务调度给对应的tasktracker)和任务进度管理(监控任务, 重启失败的或者速度比较慢的任务等). YARN中将Jobtracker的责任划分给两个独立的守护进程: 资源管理器(resour... 阅读全文

posted @ 2016-12-07 09:53 Beeman_xia 阅读(322) 评论(0) 推荐(0)

HDFS的接口（命令行接口和Java接口）--笔记

摘要：HDFS 文件的系统访问的接口1.Hadoop的shell命令脚本hadoop fs -ls 列出某一个目录下的文件hadoop fs -lsr 递归的方式列出所有文件hadoop fs -mkdir 创建目录hadoop fs -rm 删除文件或者目录had... 阅读全文

posted @ 2016-12-01 16:24 Beeman_xia 阅读(666) 评论(0) 推荐(0)

eclipse运行中出错:unknown protocol: hdfs

摘要：出现这个错误因为你没有把core-site.xml和hdfs-site.xml放到项目下程序运行开始就要调用这两个配置文件，这两个文件就是配置Hadoop时候的配置文件，只需要把至两个文件copy到你这个项目的bin目录下，复制过去一定要记住刷新一下eclipse，在... 阅读全文

posted @ 2016-12-01 10:46 Beeman_xia 阅读(229) 评论(0) 推荐(0)

Beeman_xia

12 2016 档案

公告