摘要: 数据处理过程中,需要excel进行简单的操作,比如vlookup,摸索之后,总结如下: 阅读全文
posted @ 2018-06-18 08:02 后山前堂客 阅读(169) 评论(0) 推荐(0)
摘要: 1 为了便于测试,需要mock一些数据,并尽可能随机散列,比如说要为每个客户随机生成一个字段值 到访客户 / 成交客户 / 会员客户实现方式: split('到访客户 成交客户 会员客户',' ')[cast(rand()*3 as int)] 通过rand()生成随机小数0-1之间 cast(do 阅读全文
posted @ 2018-06-17 22:59 后山前堂客 阅读(656) 评论(0) 推荐(0)
摘要: 描述: 本地测试环境hive中有数据,存储格式为textfile,现在要上传到公司开发环境,存储格式为parquet, 如何实现??? tb_textfile表 > local file >tb_parquet(❌) tb_textfile表 > local file >tb_textfile_tm 阅读全文
posted @ 2018-06-17 22:47 后山前堂客 阅读(3639) 评论(0) 推荐(0)
摘要: 经过反复试验,最终重启hdfs和hive解决问题 1 hive> insert overwrite local directory '/Users/wooluwalker/Desktop/' select * from tb_test; 2 Total jobs = 1 3 Launching Jo 阅读全文
posted @ 2018-06-17 21:18 后山前堂客 阅读(685) 评论(0) 推荐(0)
摘要: 转载地址: https://www.cnblogs.com/LisaWen/p/7121430.html 阅读全文
posted @ 2018-06-05 09:31 后山前堂客 阅读(87) 评论(0) 推荐(0)
摘要: 参见链接 https://blog.csdn.net/u012373815/article/details/53266301 运行jar包: 将写好的项目打成jar,上传到服务器,进入SPARK_HOME的bin目录执行:spark-submit --class 类的全路径名 jar包路径 阅读全文
posted @ 2018-06-04 07:23 后山前堂客 阅读(775) 评论(0) 推荐(0)
摘要: 1.单机(非分布式)模式 这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统,一般仅用于本地MR程序的调试 2.伪分布式运行模式 这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker 阅读全文
posted @ 2018-06-03 20:19 后山前堂客 阅读(6748) 评论(0) 推荐(1)
摘要: 1 原材料 1.1 已经安装好的伪分布式hadoop,版本2.8.3(参见链接https://www.cnblogs.com/wooluwalker/p/9128859.html) 1.2 apache-hive-2.3.3-bin.tar.gz 1.3 已经安装好的mysql(mysql-5.7. 阅读全文
posted @ 2018-06-03 16:17 后山前堂客 阅读(307) 评论(0) 推荐(0)
摘要: 在macbook终端执行如下代码: 1. 设置打开所有的文件 defaults write com.apple.finder AppleShowAllFiles -bool true 2. 关闭之前打开的Finder(当然也可以手动关闭,这样有big) killall Finder 3. 重新开启F 阅读全文
posted @ 2018-06-03 14:43 后山前堂客 阅读(1299) 评论(0) 推荐(0)
摘要: 1 原材料 1.1 mysql-5.7.22-macos10.13-x86_64.dmg 2 msql在macbook下的安装: 双击dmg进行解压, 再双击解压出来的pkg文件进行安装 3. Continue -> Continue, Agree -> Install -> 输入管理员密码 4. 阅读全文
posted @ 2018-06-03 14:38 后山前堂客 阅读(141) 评论(0) 推荐(0)