随笔分类 -  大数据

摘要:1.建表 CREATE TABLE app.xxx( ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 2.找到数据文件路径 hadoop ls 3.导入数据 hadoop fs -put xxx.csv /inc 阅读全文
posted @ 2021-09-06 13:54 monkey66 阅读(372) 评论(0) 推荐(0)
摘要:1.前缀搜索 在实际应用中,能不用尽量别用。性能太差了。 C3D0-KD345 C3K5-DFG65 C4I8-UI365 C3 --> 上面这两个都搜索出来 --> 根据字符串的前缀去搜索 不用帖子的案例背景,因为比较简单,直接用自己手动建的新索引,给大家演示一下就可以了 PUT my_index 阅读全文
posted @ 2021-08-18 10:48 monkey66 阅读(1959) 评论(0) 推荐(0)
摘要:1.数据准备 POST /forum/article/_bulk { "index": { "_id": 1 }} { "articleID" : "XHDK-A-1293-#fJ3", "userID" : 1, "hidden": false, "postDate": "2017-01-01" 阅读全文
posted @ 2021-08-17 10:47 monkey66 阅读(47) 评论(0) 推荐(0)
摘要:1.1 修改Hive支持中文注释 修改hive-site.xml中的参数 [atguigu@hadoop102 conf]$ vim hive-site.xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:my 阅读全文
posted @ 2021-08-13 14:50 monkey66 阅读(162) 评论(0) 推荐(0)
摘要:在windows的idea中访问执行时,会向linux下的hadoop提交文件,可能会发生权限问题,原因是执行时,idea会将当前windows登陆用户做为hadoop用户来提交文件。因此会导致权限不足的问题 解决办法 :在执行程序的Edit Configurations中 做如下设置,把VM op 阅读全文
posted @ 2021-08-13 14:49 monkey66 阅读(387) 评论(0) 推荐(0)
摘要:SELECT count(1), count(DISTINCT xx)from xxx.xxxwhere dt = '2020-10-11' and length(regexp_extract(goods_tag_name, '易方达蓝筹|张坤|蔡徐坤', 0)) > 0; 阅读全文
posted @ 2021-08-05 15:11 monkey66 阅读(527) 评论(0) 推荐(0)
摘要:1.hive表迁移 #!/bin/bash #set -x DB=$1 #获取hive表定义 ret=$(hive -e 'use ${DB};show tables;'|grep -v _es|grep -v _hb|grep -v importinfo) for tem in $ret; do 阅读全文
posted @ 2021-07-24 14:49 monkey66 阅读(314) 评论(0) 推荐(0)
摘要:使用sqoop进行抽取的时候 报错信息如下: Error: java.io.IOException: SQLException in nextKeyValue 问题原因:由于mysql的驱动包导致的 解决方案:将sqoop里面的mysql驱动包中的mysql8.0 修改为mysql5.+ 2.sqo 阅读全文
posted @ 2021-07-24 14:49 monkey66 阅读(254) 评论(0) 推荐(0)
摘要:Hive 自定义udf --ip地址解析出归属地 1.问题背景:现在我们的流量表里存有用户的IP地址,有需求需要将ip地址的归属地解析出来。结构是 国家-省份-城市-运营商 2.目前使用的是开源的ip库,调用三方接口不太适合hive udf使用并且都是收费的。 3.开源数据库调研了纯真数据库 发现i 阅读全文
posted @ 2021-07-24 14:38 monkey66 阅读(1234) 评论(0) 推荐(0)
摘要:1.问题背景:流量表数据添加字段解析,需要对数据进行重跑,就是进行 insert overwrite ,hive的引擎是 tez。不过插入后发现查询特别的慢,经排查发现是由于重新插入数据导致了很多小文件,从而导致数据查询特别慢。 2.问题解决:可以添加参数进行小文件合并 #动态分区 SET hive 阅读全文
posted @ 2021-07-24 14:36 monkey66 阅读(182) 评论(0) 推荐(0)