会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
sw_kong
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
7
8
9
10
11
12
13
14
下一页
2019年11月26日
一条 SQL 在 Apache Spark 之旅
摘要: 转载自过往记忆大数据 https://www.iteblog.com/archives/2561.html Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前
阅读全文
posted @ 2019-11-26 10:46 sw_kong
阅读(2331)
评论(1)
推荐(1)
2019年11月22日
spark thriftserver
摘要: spark可以作为一个分布式的查询引擎,用户通过JDBC/ODBC的形式无需写任何代码,写写sql就可以实现查询啦,那么我们就可以使用一些支持JDBC/ODBC连接的BI工具(比如tableau)来生成一些报表。 spark thriftserver的实现也是相当于hiveserver2的方式,并且
阅读全文
posted @ 2019-11-22 16:22 sw_kong
阅读(4429)
评论(0)
推荐(0)
编译spark支持thriftserver
摘要: cdh默认把spark的spark-sql以及hive-thriftserver给阉割掉了,想使用thriftserver,于是自己重新编译一个。 此外,如果是spark1.6至spark2.1版本,也可以直接从官网下载编译好的包,将thriftserver相关的jar包放到cdh spark对应的
阅读全文
posted @ 2019-11-22 09:14 sw_kong
阅读(925)
评论(0)
推荐(0)
2019年11月21日
hive数据类型
摘要: hive数据类型包括:数字类型,时间类型,string类型,misc类型和复合类型 数值类型包括: TINYINT (1-byte,表示从-128到127的整数) SMALLINT (2-byte,表示从-32,768到32,767的整数) INT/INTEGER (4-byte,表示从-2,147
阅读全文
posted @ 2019-11-21 10:24 sw_kong
阅读(1550)
评论(0)
推荐(0)
2019年11月20日
K均值聚类算法
摘要: k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚
阅读全文
posted @ 2019-11-20 14:02 sw_kong
阅读(1377)
评论(0)
推荐(0)
2019年11月19日
hive表字段注释显示乱码问题
摘要: 创建了一张hive表,对字段增加了注释,比如comment '注释内容' 之类的,但是在hive client查看时候却是乱码 比如: create table test_ultraedit ( id int comment 'id', name string comment '名字' ); 在hi
阅读全文
posted @ 2019-11-19 15:02 sw_kong
阅读(673)
评论(0)
推荐(0)
【转】美团 MySQL 数据实时同步到 Hive 的架构与实践
摘要: 文章转载自公众号 美团技术团队 , 作者 萌萌 背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系
阅读全文
posted @ 2019-11-19 10:10 sw_kong
阅读(4647)
评论(4)
推荐(0)
2019年11月14日
排序算法
摘要: 冒泡排序(Bubble Sort) 实现 每一轮,从数组头部开始,每两个元素比较大小并进行交换,直到这一轮当中最大或最小的元素被放置在数组的尾部,然后不断地重复这个过程,直到所有元素都排好位置。其中,核心操作就是元素相互比较。 例题 给定数组 [2, 1, 7, 9, 5, 8],要求按照从左到右、
阅读全文
posted @ 2019-11-14 10:30 sw_kong
阅读(385)
评论(0)
推荐(0)
MySQL 索引
摘要: MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。 打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车。 拿汉语字典的目录页(索引)打比方,我们可以按拼音、笔画、偏旁部首等排序的目录(索引
阅读全文
posted @ 2019-11-14 09:54 sw_kong
阅读(104)
评论(0)
推荐(0)
2019年10月25日
自定义spark UDAF
摘要: Spark提供了两种自定义聚合函数的方法,分别如下: Untyped User-Defined Aggregate Functions 有类型的自定义聚合函数,主要适用于 DataSet Type-Safe User-Defined Aggregate Functions 无类型的自定义聚合函数,主
阅读全文
posted @ 2019-10-25 14:15 sw_kong
阅读(316)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
下一页
公告