07 2016 档案

摘要:1.背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可 阅读全文
posted @ 2016-07-29 22:47 楚时邀月 阅读(1668) 评论(0) 推荐(0)
摘要:1.概述 Hadoop Streaming提供了一个便于进行MapReduce编程的工具包,使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer,从而充分利用Hadoop并行计算框架的优势和能力,来处理大数据。需要注意的是,Streaming方式是基于Unix系统 阅读全文
posted @ 2016-07-28 11:26 楚时邀月 阅读(5467) 评论(0) 推荐(1)
摘要:sqoop简介 sqoop名字是怎么来的?Sqoop: SQL-to-Hadoop 连接传统数据库和hadoop的桥梁,把关系型数据库的数据导入到hadoop系统(如HDFS,HBASE和hive中),把数据从hadoop系统里抽取并导出到关系型数据库里。利用MapReduce加快数据传输速度,批量 阅读全文
posted @ 2016-07-26 15:33 楚时邀月 阅读(531) 评论(0) 推荐(0)
摘要:错误记录 安装的时候遇到了如下错误 遇到这种情况大家都找不到头绪,是因为你开始运行了hive的metastore,可以输入jps 然后出现如下: 需要杀掉这个Runjar的进程在启动。 阅读全文
posted @ 2016-07-25 21:36 楚时邀月 阅读(1856) 评论(0) 推荐(0)
摘要:topic中partition存储分布 Topic在逻辑上可以被认为是一个queue。每条消费都必须指定它的topic,可以简单理解为必须指明把这条消息放进哪个queue里。为了使得 Kafka的吞吐率可以水平扩展,物理上把topic分成一个或多个partition,每个partition在物理上对 阅读全文
posted @ 2016-07-22 17:28 楚时邀月 阅读(5073) 评论(0) 推荐(1)
摘要:time介绍 在开始之前,首先要说明这几点: 1.在Python中,通常有这几种方式来表示时间:1)时间戳 2)格式化的时间字符串 3)元组(struct_time)共九个元素。由于Python的time模块实现主要调用C库,所以各个平台可能有所不同。2.UTC(Coordinated Univer 阅读全文
posted @ 2016-07-12 21:13 楚时邀月 阅读(733) 评论(0) 推荐(0)
摘要:什么是socket 网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket。socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信。在Internet上的主机一般运行了多个服务软件,同时提供几种服务 阅读全文
posted @ 2016-07-07 15:23 楚时邀月 阅读(273) 评论(0) 推荐(0)
摘要:异常处理的作用 在编程过程中为了增加友好性,在程序出现bug时一般不会将错误信息显示给用户,而是现实一个提示的页面,通俗来说就是不让用户看见大黄页!(这里的大黄页通常是写代码是用户访问网页,如果出现错误之后返回的一个黄色的报错页面通常称为:大黄页) 例子: 拿咱们刚开始学的时候遇到的问题来举例: 未 阅读全文
posted @ 2016-07-04 15:29 楚时邀月 阅读(435) 评论(0) 推荐(0)
摘要:面向对象总结 面向对象是一种编程方式,此编程方式的实现是基于对 类 和 对象 的使用 类 是一个模板,模板中包装了多个“函数”供使用(可以讲多函数中公用的变量封装到对象中) 对象,根据模板创建的实例(即:对象),实例用于调用被包装在类中的函数 面向对象三大特性:封装、继承和多态 本篇将详细介绍Pyt 阅读全文
posted @ 2016-07-03 19:10 楚时邀月 阅读(256) 评论(0) 推荐(0)
摘要:1.使用第三方库 python中处理excel表格,常用的库有xlrd(读excel)表、xlwt(写excel)表、openpyxl(可读写excel表)等。 xlrd读数据较大的excel表时效率高于openpyxl,所以我在写脚本时就采用了xlrd和xlwt这两个库。介绍及下载地址为:http 阅读全文
posted @ 2016-07-01 11:07 楚时邀月 阅读(923) 评论(0) 推荐(0)