随笔分类 - Spark / hadoop / hive
摘要:select apply.*, label.* from apply_month apply left join overdue_label label on apply.transactionid = label.transid where apply.stat_month=${month} an
阅读全文
摘要:日期时间相关 固定日期转换成时间戳 select unix_timestamp('2016-08-16','yyyy-MM-dd') --1471276800 select unix_timestamp('20160816','yyyyMMdd') --1471276800 select unix_
阅读全文
摘要:https://blog.csdn.net/qq_26033611/article/details/86541808
阅读全文
摘要:## 判断输入文件 import os import sys for line in sys.stdin: map_input_file = os.environ.get("map_input_file") if path in map_input_file: # do sth
阅读全文
摘要:import os import sys spark_name = os.environ.get('SPARK_HOME',None) if not spark_name: raise ValueErrorError('spark环境没有配置好') sys.path.insert(0,os.path
阅读全文
摘要:参考: "spark的介绍和pyspark的使用"
阅读全文
摘要:1.Hadoop分布式文件系统(HDFS) HDFS基于GFS(Google File System),能够存储海量的数据,并且使用分布式网络客户端透明访问。 HDFS中将文件拆分成特定大小的块结构(block structured filesystem),一个文件的不同块存储在不同的节点中。 为了
阅读全文
摘要:CREATE EXTERNAL TABLE `table_name`( `column1` string, `column2` string, `column3` string) PARTITIONED BY ( `proc_date` string) ROW FORMAT SERDE 'org.a
阅读全文
摘要:方法一: jps 查看Java 包 sudo apt-get install openjdk** sudo apt-get install scala 选择安装源然后 sudo wget 下载链接 sudo tar xf sprak*** cd sprk** sudo ./bin/pyspark (
阅读全文
浙公网安备 33010602011771号