会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wang_zai
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
···
8
下一页
2019年10月31日
spark遇到的问题及解决方法
摘要: 1. 表中数据过亿,加载速度过慢,而我只需要加载增量数据 如:加载昨天一整天的数据,添加predicates分区,方法如下: 如果需要加载大表中全部数据,可以把数据分成多个区(读取数据库表默认是一个分区),如下是按创建时间分区,把最近三个月数据分成三个区 2.每次到了最后一个stage,报内存不足错
阅读全文
posted @ 2019-10-31 15:32 wang_zai
阅读(1074)
评论(0)
推荐(0)
2019年6月27日
spark操作总结
摘要: 一、sparkContext与sparkSession区别 任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数,sparkContext只能在driver机器上面启动;SparkS
阅读全文
posted @ 2019-06-27 14:51 wang_zai
阅读(637)
评论(0)
推荐(0)
2019年6月19日
使用Matplotlab画图
摘要: 1.绘制折线图 2.绘制散点图 3.绘制水平条形图 4.绘制条形图 5.绘制饼图 6.绘制多条折线图 7.绘制多个条形图
阅读全文
posted @ 2019-06-19 09:52 wang_zai
阅读(686)
评论(0)
推荐(0)
2019年6月10日
sparkstreaming写入hbase表中总结
摘要: 执行spark代码插入数据到hbase表中去的时候,遇到的错误 1. 缺少hadoop-mapreduce-client-core-2.5.1.jar包 2. 缺少hbase-protocol-1.3.1.jar包 3. 缺少metrics-core-2.2.0.jar的包 4. 需要的jar包 5
阅读全文
posted @ 2019-06-10 10:35 wang_zai
阅读(2736)
评论(0)
推荐(0)
访问hive显示原数据报错
摘要: 访问hive报错如下: 找到原因是因为在spark-shell里面操作了hive的数据(spark应用创建表时,指定的schema版本为1.2.0,而hive的schema版本为2.3.x,版本不兼容导致) 解决方法一(临时解决):首先查看你hive的版本,如若是2.3.4则到hive对应元数据的M
阅读全文
posted @ 2019-06-10 10:09 wang_zai
阅读(865)
评论(0)
推荐(1)
vimplus基本操作
摘要: 1. YouCompleteMe按tab键,自动补全 2. vim-commentary添加注释,以及取消注释gcc 注释当前行(普通模式)gc 可视模式下,注释当前选中的部分gcu 撤销上一次注释的部分,可以是一行也可以是多行 3. vim分割窗口的操作:split 水平(上下)分割窗口:vspl
阅读全文
posted @ 2019-06-10 09:58 wang_zai
阅读(2939)
评论(0)
推荐(1)
2019年4月26日
kafka存储数据量过大,导致磁盘爆满
摘要: 问题: 注意到自己负责kafka的某个topic最小的偏移量为0,而最大的偏移量都7亿多了,说明存储在kafka里面的数据没有定时删除,通过登陆到kafka服务器,查看配置文件services.properties,发现log.retention.hours=876000(100年),我猜想配置ka
阅读全文
posted @ 2019-04-26 11:00 wang_zai
阅读(10644)
评论(0)
推荐(0)
2019年4月4日
通过canal实现把MySQL数据实时增量到kafka
摘要: 说明:我们有一个业务需要把mysql中一些表实时同步到大数据集群hbase上面,我们先通过sqoop把表中数据全量导入到hbase中,然后再通过canal定位的某个binlog的position,来实现增量同步,canal官网提供了java/go接口,直接写入到Kafka,然后通过sparkstre
阅读全文
posted @ 2019-04-04 15:50 wang_zai
阅读(4440)
评论(0)
推荐(0)
2019年3月26日
调用spark API,监控任务的进度
摘要: 我们现在需要监控datapre0这个任务每一次执行的进度,操作如下: 1. 如图所示,打开spark管理页面,找到对应的任务,点击任务名datapre0 2. 进去之后,获得对应IP和端口 3. 访问api(linux直接通过curl访问) http://ip:4040/api/v1/applica
阅读全文
posted @ 2019-03-26 18:26 wang_zai
阅读(3577)
评论(0)
推荐(0)
2019年1月3日
mysql常用语法
摘要: 1. DISTINCT用法 2.AND OR 用法 3.IN用法 4.Between and 用法 5.LIKE用法 6.ORDER BY用法 7.SUM用法 8.COUNT用法 9.GROUP BY 用法 10.HAVING 用法 11.ALIAS 别名用法 11.表格链接 用法 12.CONCA
阅读全文
posted @ 2019-01-03 20:49 wang_zai
阅读(508)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
···
8
下一页
公告