随笔分类 -  大数据

上一页 1 2 3 下一页
hadoop/spark/hive
python访问hive
摘要:windows下32位没成功,报错(64位可以http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 sasl‑0.2.1‑cp27‑cp27m‑win_amd64.whl) linux安装 pyhs2,cyrus-sasl(cyrus-sasl-plain cy 阅读全文
posted @ 2017-03-09 17:51 凌度 阅读(7960) 评论(0) 推荐(0)
hive使用map字段
摘要:创建 test7.txt 导入数据 查询 阅读全文
posted @ 2017-01-10 11:51 凌度 阅读(10738) 评论(0) 推荐(0)
Hive修改表
摘要:Alter Table 语句 它是在Hive中用来修改的表。 语法 声明接受任意属性,我们希望在一个表中修改以下语法。 Rename To… 语句 下面是查询重命名表,把 employee 修改为 emp。 Change 语句 下表包含employee表的字段,它显示的字段要被更改(粗体)。 下面查 阅读全文
posted @ 2016-12-29 17:06 凌度 阅读(48221) 评论(0) 推荐(0)
hive删除数据
摘要:按分区删除: ALTER TABLE test1 DROP PARTITION (dt='2016-04-29'); 删除符合条件的数据: insert overwrite table t_table1 select * from t_table1 where XXXX; 其中xxx是你需要保留的数 阅读全文
posted @ 2016-12-19 09:24 凌度 阅读(27201) 评论(0) 推荐(1)
hive导入数据
摘要:hive 默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by '\001',如果要测试的话,造数据在vi 打开文件里面,用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序,\002的输入方式为ctrl+v,ctrl+b。以此类推。 当 阅读全文
posted @ 2016-12-15 12:33 凌度 阅读(1414) 评论(0) 推荐(0)
hive内部表、外部表、分区表、视图
摘要:1、Table 内部表 1).与数据库中的Table在概念上是类似的 2).每一个Table在Hive中都有一个相应的目录存储数据 3).所有的Table数据(不包括 External Table) 都保存在这个目录中 4).删除表时,元数据与数据都会被删除 5).建表: 2、Partition 分区表 1).Partition 对应于数据库的... 阅读全文
posted @ 2016-12-15 11:40 凌度 阅读(3147) 评论(0) 推荐(0)
Hive删除数据库
摘要:DROP DATABASE是删除所有的表并删除数据库的语句。它的语法如下: 下面的查询用于删除数据库。假设要删除的数据库名称为userdb。 以下是使用CASCADE查询删除数据库。这意味着要全部删除相应的表在删除数据库之前。 阅读全文
posted @ 2016-12-14 11:23 凌度 阅读(13697) 评论(0) 推荐(0)
hive查询
摘要:查询语句可以直接使用非分析函数的变量的别名 分析函数必须套一个查询,不能直接用rn <=5 阅读全文
posted @ 2016-11-22 15:41 凌度 阅读(345) 评论(0) 推荐(0)
hive日期函数
摘要:今天select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss') UNIX时间戳转日期函数: from_unixtime 语法: from_unixtime(bigint unixtime[, string format]) 返回值: st 阅读全文
posted @ 2016-11-03 21:49 凌度 阅读(32065) 评论(0) 推荐(1)
hive和ORACLE语法对比
摘要: 阅读全文
posted @ 2016-10-13 15:27 凌度 阅读(2983) 评论(0) 推荐(0)
hive 全局排序
摘要:不分发数据,使用单个reducer 包多一层,是用order by 把所有具有相同的行最终都在一个reducer分区中,在在一个reducer中排序。 cluster by column=distribute by column+sort by colum 查询每天前十名充值用户和充值总额 阅读全文
posted @ 2016-10-09 11:12 凌度 阅读(3229) 评论(0) 推荐(0)
hive添加分区
摘要:添加分区 alter table 表名 add partition (dt='2016-09-12'); select * from 表名 where dt = '2016-09-12' limit 10; 阅读全文
posted @ 2016-09-13 14:47 凌度 阅读(12154) 评论(0) 推荐(0)
hadoop fs管理文件权限
摘要:查看hdfs全部目录大小 sudo addgroup Hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组 修改hadoop目录的权限sudo chown -R larry:hadoop /home/larry/hadoo 阅读全文
posted @ 2016-05-25 10:18 凌度 阅读(28683) 评论(0) 推荐(0)
hive数据导入导出和常用操作
摘要:导出到本地文件 insert overwrite local directory '/home/hadoop'select * from test1; 导出到hdfs insert overwrite directory '/data/input'select * from test1; 导出到本地 阅读全文
posted @ 2016-04-21 17:24 凌度 阅读(512) 评论(0) 推荐(0)
hadoop的live node为0
摘要:1、重新格式化namenode 2、检查hosts文件 3、关闭防火墙 阅读全文
posted @ 2016-04-18 16:05 凌度 阅读(1293) 评论(0) 推荐(0)
hbase安装
摘要:http://apache.fayea.com/zookeeper/stable/ 在/home/hadoop/zookeeper/conf下新建zoo.cfg 启动 http://apache.fayea.com/hbase/stable/ wget http://apache.fayea.com 阅读全文
posted @ 2016-04-13 14:59 凌度 阅读(288) 评论(0) 推荐(0)
hive安装
摘要:/etc/profile 1、MySQL作为存储元数据的数据库,所以需要把连接MySQL的jar包放入或链接到$HIVE_HOME/lib目录下。 2、修改hive-site.xml 内嵌模式,特点是:hive服务和metastore服务运行在同一个进程中,derby服务也运行在该进程中。 该模式无 阅读全文
posted @ 2016-04-13 12:35 凌度 阅读(429) 评论(0) 推荐(0)
手游设备ID
摘要:android: imei: IMEI(International Mobile Equipment Identity)是国际移动设备标识的缩写,IMEI由15位数字(英文字母)组成。 mac: 是指网卡物理地址。 android id: 在设备首次启动时,系统会随机生成一个64位的数字,并把这个数 阅读全文
posted @ 2016-04-08 16:16 凌度 阅读(553) 评论(0) 推荐(0)
hadoop安装
摘要:查看CentOS自带JDK是否已安装。 yum list installed |grep java。 安装和更新java yum -y install java-1.7.0-openjdk* 设置java_home=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.99-2 阅读全文
posted @ 2016-03-30 14:15 凌度 阅读(315) 评论(0) 推荐(0)
Hive On Spark和SparkSQL
摘要:SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案。Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL。这是Spark官方Databricks的项目,Spark项目本身主推的SQL实现。Hive On Spark比SparkS 阅读全文
posted @ 2016-03-27 11:26 凌度 阅读(607) 评论(0) 推荐(0)

上一页 1 2 3 下一页