会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
45
下一页
2019年7月1日
Spark资源调度及任务调度
摘要: 1、 资源分配 通过SparkSubmit进行提交应用后,首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers,并等待分配执行资源。 1.1 Dirver调度(分
阅读全文
posted @ 2019-07-01 15:02 大葱拌豆腐
阅读(883)
评论(0)
推荐(0)
2019年6月30日
spark streaming流式计算---监听器
摘要: 随着对spark的了解,有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能。每一个新功能被挖掘,就可以使开发过程变得更加便利一点。甚至使很多不可能完成或者完成起来比较复杂的操作,变成简单起来。有些功能是框架专门开放给用户使用,有些则是框架内部使用但是又对外暴露了接口,用户也可以使用
阅读全文
posted @ 2019-06-30 22:12 大葱拌豆腐
阅读(1414)
评论(0)
推荐(1)
Spark2-数据探索
摘要: Spark2为DataSet/DataFrame提供了一个stat方法,会返回一个DataFrameStatFunctins对象,可以调用其方法来实现数据的探索功能。 1 freqItems 包含了4个重载方法: 查看字段中的频繁元素集合,返回每个字段保安一个数组,包含了所有去重后的元素。suppo
阅读全文
posted @ 2019-06-30 22:05 大葱拌豆腐
阅读(858)
评论(0)
推荐(1)
spark streaming 流式计算---跨batch连接池共享(JVM共享连接池)
摘要: 在流式计算过程中,难免会连接第三方存储平台(redis,mysql...)。在操作过程中,大部分情况是在foreachPartition/mapPartition算子中做连接操作。每一个分区只需要连接一次第三方存储平台就可以了。假如,当前streaming有100分区,当前流式计算宫分配了20个cp
阅读全文
posted @ 2019-06-30 21:32 大葱拌豆腐
阅读(686)
评论(0)
推荐(0)
Spark布隆过滤器(bloomFilter)
摘要: 数据过滤在很多场景都会应用到,特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能,比如hbase框架实现的布隆过
阅读全文
posted @ 2019-06-30 13:24 大葱拌豆腐
阅读(4296)
评论(0)
推荐(0)
spark性能优化----缓存清除
摘要: spark是一款优秀的框架,计算性能相当优异,已经发展成大数据主流计算引擎,在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果,避免重复计算。其中cache是persist的一个特列(cache相当于persist())。per
阅读全文
posted @ 2019-06-30 11:20 大葱拌豆腐
阅读(4325)
评论(0)
推荐(0)
spark-submit --files 动态加载外部资源文件
摘要: 在做spark时,有些时候需要加载资源文件,需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取,需要如下代码: 这是直接读取classPath路径下的文件,但是cluster模式下,driver有可能不再程序提交的客户端上,
阅读全文
posted @ 2019-06-30 11:08 大葱拌豆腐
阅读(3443)
评论(0)
推荐(0)
2019年6月29日
Spark程序进行单元测试-使用scala
摘要: Spark 中进行一些单元测试技巧:最近刚写了一点Spark上的单元测试,大概整理了一些 rdd测试 spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所以尽可能先本地进行单元测试,以减少在集群上运行时错误,特别是map等
阅读全文
posted @ 2019-06-29 20:58 大葱拌豆腐
阅读(3301)
评论(0)
推荐(0)
spark ml pipeline构建机器学习任务
摘要: 一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线
阅读全文
posted @ 2019-06-29 14:30 大葱拌豆腐
阅读(1268)
评论(0)
推荐(0)
2019年6月27日
常用特征离散化方法
摘要: 1规定划分区间的参数,取定长的间隔将特征放入不同的箱子中,这种方法对异常点比较敏感。(等宽) 2 根据频率划分箱子,会出现特征相同却不在一个箱子中的情况,需要在划分完成后进行微调。(等频)先对特征值进行sort,然后评估分割点,划分或者合并 3 1R方法:将前面的m个实例放入箱子中如果后面实例放入箱
阅读全文
posted @ 2019-06-27 21:52 大葱拌豆腐
阅读(1838)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
45
下一页
公告