会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xuejianbest
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
7
8
9
10
11
12
13
14
15
···
38
下一页
2019年1月4日
Spark:windows下配置spark开发环境
摘要: 安装基本的开发环境从spark官网下载spark,如spark-2.3.0-bin-hadoop2.7.tgz,解压并配置环境变量:增加SPARK_HOMEPATH中加入%SPARK_HOME%\bin下载对应版本Scala,若不是安装版解压后需要配置环境变...
阅读全文
posted @ 2019-01-04 17:24 xuejianbest
阅读(248)
评论(0)
推荐(0)
2019年1月3日
Hive:修改表名
摘要: 修改hive表名:ALTER TABLE old_name RENAME TO new_name;spark:spark.sql("ALTER TABLE old_name RENAME TO new_name")
阅读全文
posted @ 2019-01-03 16:20 xuejianbest
阅读(18333)
评论(0)
推荐(2)
Spark:用saveAsTable保存为hive默认纯文本文件
摘要: spark中Dataset的的saveAsTable方法可以把数据持久化到hive中,其默认是用parquet格式保存数据文件的,若是想让其保存为其他格式,可以用format方法配置。如若想保存的数据文件格式为hive默认的纯文本文件:df.write.mo...
阅读全文
posted @ 2019-01-03 16:19 xuejianbest
阅读(2145)
评论(0)
推荐(0)
Hive:处理时间的函数
摘要: UNIX时间戳概念从格林尼治时间1970-01-01 00:00:00开始,到现在经过的秒数。时间戳是一个32位的整数(所以UNIX时间戳最多表示到2037年左右)。因为UNIX时间戳只是一个秒数,一个UNIX时间戳在不同时区看来,时间是不同的。如UNIX时...
阅读全文
posted @ 2019-01-03 16:15 xuejianbest
阅读(1564)
评论(0)
推荐(0)
Hive:建表、插入数据、插入复合类型
摘要: 新建hive表:CREATE TABLE `test`( `a` timestamp, `b` struct) --下面可选 [row format delimited fields terminated by '\t'] [STORED AS P...
阅读全文
posted @ 2019-01-03 16:12 xuejianbest
阅读(2168)
评论(0)
推荐(0)
Spark:读取文本文件存为hive表最佳实践
摘要: 存储表的时候,由以下几点要注意:写入hive表前用coalesce方法对原始数据进行重新分区。因为读取的数据一般是纯文本,写入hive中的默认是用snappy压缩过的parquet(.snappy.parquet),所以分区数如果保持原来的话可能会造成每个....
阅读全文
posted @ 2019-01-03 16:07 xuejianbest
阅读(1048)
评论(0)
推荐(0)
Hive:客户端
摘要: hive本身提供了thrift协议对外提供服务的功能。如果某台机器已经配置好了hive,然后运行以下命令打开thrift,提供对外服务(打开后这台机器就为hive服务器):hive --service metastore & 远程机器想要使用hive,可以...
阅读全文
posted @ 2019-01-03 16:04 xuejianbest
阅读(2385)
评论(0)
推荐(0)
Hive:强制删除数据库
摘要: 若hive库中有数据存在,直接删除会报错。若想强制删除非空库使用cascade关键字:drop database tmp cascade;
阅读全文
posted @ 2019-01-03 16:03 xuejianbest
阅读(3833)
评论(0)
推荐(0)
Hadoop:修改hdfs上文件或目录的拷贝份数
摘要: setrep指定拷贝份数,如果是目录,要递归修改用-R参数:hadoop fs -setrep 1 \ /data/abc/text1.csv \ /data/abc/text2.csv \ /data/abc/text3.csv ...
阅读全文
posted @ 2019-01-03 15:27 xuejianbest
阅读(282)
评论(0)
推荐(0)
Hadoop:hdfs数据块和拷贝份数
摘要: hdfs上的文件的最小存储单位是块(block),一个块的大小可以指定,一般默认块的大小为64MB或128MB。文件块的数量影响了spark读取hdfs文件生成的RDD的partition数量。另外hdfs上文件是有多份拷贝的(具体几份可以配置)。若一个Da...
阅读全文
posted @ 2019-01-03 15:27 xuejianbest
阅读(1129)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
15
···
38
下一页
公告