无西lc - 博客园

2018年11月4日

摘要：碰到这样一个事：我们往hbase里面导数据, 补了快一年的数据了，结果发现某个列的数据有几个月是有问题的，不能用，所以需要将这个列的有问题的几个月数据全部干掉, 查了hbase的命令，发现没有这种根据rowkey范围直接删除某个列的命令. 所以只能自己写了: 可以采用客户端编程的方式，也可以采用hb 阅读全文

posted @ 2018-11-04 16:48 无西lc 阅读(5746) 评论(4) 推荐(1)

2018年7月23日

hive on tez自定义jobname

摘要：我们数据部门有这样一个规范：那就是提交作业的时候会给作业起一个名字，方便在yarn界面进行搜索, 比如mapreduce,hive on mr都可以通过mapreduce.job.name参数进行指定，spark在提交的时候也可以通过--name参数进行指定该应用的名字，这样在作业量很多的情况下，我阅读全文

posted @ 2018-07-23 18:39 无西lc 阅读(1887) 评论(0) 推荐(0)

2018年7月17日

hive血缘关系之输入表与目标表的解析

摘要：接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，阅读全文

posted @ 2018-07-17 21:41 无西lc 阅读(11813) 评论(2) 推荐(1)

2018年7月11日

spark ml中一个比较通用的transformer

摘要： spark ml中有许多好用的transformer，很方便用来做特征的处理，比如Tokenizer, StopWordsRemover等,具体可参看文档:http://spark.apache.org/docs/2.1.0/ml-features.html . 但是呢，这些都是一些特定的操作，组内阅读全文

posted @ 2018-07-11 10:18 无西lc 阅读(547) 评论(0) 推荐(0)

2018年7月10日

TF-IDF小记

摘要：关于机器学习,自己也是半路出家,没啥基础, 不过知识也是一点一点积累起来的。tf-idf是在处理文本中很常用的一个公式, 下面记录一下自己对它的理解: tf :计算某个词在某个文档中的词频(即某个词在它所在的行中出现的次数，在spark ml的表示中,一行代表一个文档)。 idf: 逆向文档频率, 阅读全文

posted @ 2018-07-10 18:22 无西lc 阅读(115) 评论(0) 推荐(0)

2018年7月2日

namenode服务迁移

摘要：交代一下背景： 1. 由于机器过保，需要进行机器的置换，所以就有了这么个事情; 2. namenode是普通的ha模式，没有配置federation; 3. 需要尽最大的可能不影响生产环境中Hadoop集群的服务 4. 我们的集群都是通过hostname进行的配置，不是通过具体的ip进行的配置。推荐阅读全文

posted @ 2018-07-02 21:20 无西lc 阅读(482) 评论(0) 推荐(0)

2018年6月25日

spark on yarn上的dynamic executor

摘要：首先交代一下背景: 先前公司采用的spark版本是1.6.1, spark1.6之后有一个新的特性：Dynamic Allocation，也就是动态的executor，会根据task的情况自动增加或者减少executor的个数，这样就能够在一定程度上避免资源的浪费。但很遗憾，先前公司使用spark 阅读全文

posted @ 2018-06-25 19:53 无西lc 阅读(511) 评论(0) 推荐(0)

zookeeper集群线上机器置换

摘要：事情的初衷是这样的：线上有一个小的zk集群，三台机器。其中有一台机器过了保期，需要置换。所以需要用一台新的机器来替换掉其中的一个zk节点，但是为了不影响线上的服务，所以不能停zk集群。这里不将具体的hostname和ip写出来，姑且将原来的三台机器定义为 a、b和c, 现在b过保，用新机器d来替阅读全文

posted @ 2018-06-25 16:55 无西lc 阅读(938) 评论(0) 推荐(0)

2018年6月23日

namenode元数据容错

摘要：由于目前的生产环境 namenode ha都只是配置了一块磁盘，如果磁盘坏了，估计就game over了。所以想着怎样做namenode的元数据容错。后来查阅hdfs的相关配置，发现一个恰好可以解决该问题的配置: <property> <name>dfs.namenode.name.dir</nam 阅读全文

posted @ 2018-06-23 22:35 无西lc 阅读(248) 评论(0) 推荐(0)

Spark HistoryServer服务迁移

摘要：由于目前spark的历史服务所在的机器内存不太够，导致spark的hisstory server经常卡死。所以决定将该服务迁移到一台内存稍微多点的机器上，并将historyserver内存由原来的3g调整为8g，下面开始记录一下本次操作过程的步骤，方便以后进行查阅. 我们的生产环境采用的是spark 阅读全文

posted @ 2018-06-23 22:15 无西lc 阅读(371) 评论(0) 推荐(0)

公告