04 2021 档案

hive获取当前时间(转)
摘要:和其它大部分数据库用now()函数不同,hive用unix_timestamp函数来获取时间 select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss') 转 阅读全文

posted @ 2021-04-28 11:48 静静的白桦林_andy 阅读(3226) 评论(0) 推荐(0)

文件系统、Hive
摘要:实时数据 →文件系统(Linux文件系统、HDFS、国!用的kudu等) 导入到hive,Load。 →Hive (转成相应的hive表,导入后可直接使用HiveSQL查询) hive的内容分两部分:元数据、数据。 其中数据是存在HDFS中,元数据存在mysql中。 Hive数据仓库 Hive/my 阅读全文

posted @ 2021-04-24 22:55 静静的白桦林_andy 阅读(75) 评论(0) 推荐(0)

数据仓库、数据库、数仓结构(模型)、十大主题、数据平台
摘要:1.数据仓库是从底层数据收集、ETL、数据存储、数据整理存储等的一套流程。 2.数据库我理解是数据仓库的一部分,我理解它是数据集市的组成部分,多个数据库组成一个数据库,多为关系型数据库。 3.因为数据仓库是个大工程,在建之前要想好按照什么架构来组织数据,这就分为了星型结构、雪花结构、星座模型等。 4 阅读全文

posted @ 2021-04-24 20:22 静静的白桦林_andy 阅读(5810) 评论(0) 推荐(0)

select查询不重复用户记录(转)
摘要:可以用collect_set函数,转,亲测有效 阅读全文

posted @ 2021-04-23 14:31 静静的白桦林_andy 阅读(216) 评论(0) 推荐(0)

Hive中分区的概念、hive和impala的异同点(转)
摘要:Hive数据库中有分区的概念,有单分区和多分区的形式, 1、在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在最子集的目录中。 2、总的说来partition就是辅助查询,缩小查询范围,加快数据的检索速度和对数据按照一定的规格和条件进行 阅读全文

posted @ 2021-04-21 14:02 静静的白桦林_andy 阅读(212) 评论(0) 推荐(0)

MAC 原来安装好的库如何导入pycharm(jupyter notebook,终端可用,但pycharm不能用)(转)
摘要:MAC 原来安装好的库如何导入pycharm(jupyter notebook,终端可用,但pycharm不能用) 阅读全文

posted @ 2021-04-20 21:58 静静的白桦林_andy 阅读(219) 评论(0) 推荐(0)

秒懂word2vec的本质(转)
摘要:秒懂word2vec的本质 文中提到了词嵌入(word embedding), word2vec, CBOW(continus bag of word),skip-gram,cbow等 word2vec原理(一) 阅读全文

posted @ 2021-04-16 20:03 静静的白桦林_andy 阅读(83) 评论(0) 推荐(0)

常见机器学习算法比较
摘要:连接 阅读全文

posted @ 2021-04-02 11:14 静静的白桦林_andy 阅读(44) 评论(0) 推荐(0)

机器学习中正则化L1和L2的理解(转)
摘要:正则化理解 阅读全文

posted @ 2021-04-01 17:29 静静的白桦林_andy 阅读(52) 评论(0) 推荐(0)

PCA前是否需要对数据做处理?
摘要:周志华西瓜书P231 阅读全文

posted @ 2021-04-01 13:48 静静的白桦林_andy 阅读(335) 评论(0) 推荐(0)

导航