会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
bioamin
追寻创业的梦想
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
21
下一页
2021年6月10日
hive 跨年周如何处理
摘要: 在hive中,weekofyear可以计算某一天属于这一年中的第几个周 select weekofyear("2021-05-01")17 但是如果是年末年初怎么计算呢? 2020-12-28 到 2021-01-03 是一个周,这是2020年的最后一周呢?还是2021年的第一周呢?hive中,这周
阅读全文
posted @ 2021-06-10 15:42 bioamin
阅读(1225)
评论(0)
推荐(0)
2021年2月22日
nginx 安装部署
摘要: 一、安装编译工具、依赖包 1.依赖 # 主要安装 pcre-devel Nginx 需要 $ yum -y install gcc gcc-c++ autoconf automake $ yum -y install zlib zlib-devel openssl openssl-devel pcr
阅读全文
posted @ 2021-02-22 10:09 bioamin
阅读(59)
评论(0)
推荐(0)
2021年1月28日
logstash 读取kafka output ES
摘要: input { kafka{ bootstrap_servers => ["18.3.10.53:9092,18.3.10.54:9092,19.3.10.55:9092,19.3.10.56:9092,19.3.10.57:9092,19.3.10.91:9092,19.3.10.92:9092,
阅读全文
posted @ 2021-01-28 14:11 bioamin
阅读(383)
评论(0)
推荐(0)
2021年1月25日
leedcode 001 之 Two Sum 42.20% Easy
摘要: https://leetcode-cn.com/problems/two-sum/ 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。 你可以按
阅读全文
posted @ 2021-01-25 17:27 bioamin
阅读(70)
评论(0)
推荐(0)
2021年1月19日
大数据调度与数据质量的重要性
摘要: 功能需求: 调度 与数据质量应该并行进行开发设计 1、ETL任务设计时均需要设计为失败可重跑:失败的原因包括源端数据存在问题、数据库服务重启等等 2、ETL任务设计时需要设计为失败自动尝试; 2、ETL任务应该可以实现可视化、便于快速查看依赖关系 3、ETL中数据质量的check应该发生在跨系统时刻
阅读全文
posted @ 2021-01-19 15:59 bioamin
阅读(228)
评论(0)
推荐(0)
2021年1月13日
spark 数据流输出
摘要: 1、save to hdfs json file spark.sparkContext.setLogLevel("error")val data=spark.read.json("hdfs://cslcdip/home/dip/lzm/sparkdata/people.json")data.writ
阅读全文
posted @ 2021-01-13 19:39 bioamin
阅读(291)
评论(0)
推荐(0)
spark sql 本地idea 取集群hive数据 写入到本地
摘要: package com.cslc import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.Path import scala.collection.JavaConversions._ import org.apa
阅读全文
posted @ 2021-01-13 17:05 bioamin
阅读(351)
评论(0)
推荐(0)
2021年1月12日
spark dataframe的创建(数据流读取)
摘要: 1、来自外部文件json val data=spark.read.json("hdfs://cslcdip/home/dip/lzm/sparkdata/people.json") println(data.schema) data.show() 2、来自json格式的RDD val nameRDD
阅读全文
posted @ 2021-01-12 11:36 bioamin
阅读(411)
评论(0)
推荐(0)
spark 本地连接hive集群
摘要: 1、配置hadoop环境并且制定 VM 2、配置hive的依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.3.0</version> <!
阅读全文
posted @ 2021-01-12 11:33 bioamin
阅读(890)
评论(0)
推荐(0)
2021年1月11日
spark 指定参数配置文件
摘要: 一般情况下,一个客户端指定一个集群,但是存在一个客户端指定多个集群的情况,这种情况下,需要动态调整配置文件 //配置文件可以通过传参或者数据库进行读取 package com.cslc import org.apache.hadoop.conf.Configuration import org.ap
阅读全文
posted @ 2021-01-11 20:39 bioamin
阅读(1229)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
21
下一页
公告