大葱拌豆腐 - 博客园

2019年7月1日

摘要： 1、资源分配通过SparkSubmit进行提交应用后，首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers，并等待分配执行资源。 1.1 Dirver调度(分阅读全文

posted @ 2019-07-01 15:02 大葱拌豆腐阅读(891) 评论(0) 推荐(0)

2019年6月30日

spark streaming流式计算---监听器

摘要：随着对spark的了解，有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能。每一个新功能被挖掘，就可以使开发过程变得更加便利一点。甚至使很多不可能完成或者完成起来比较复杂的操作，变成简单起来。有些功能是框架专门开放给用户使用，有些则是框架内部使用但是又对外暴露了接口，用户也可以使用阅读全文

posted @ 2019-06-30 22:12 大葱拌豆腐阅读(1417) 评论(0) 推荐(1)

Spark2-数据探索

摘要： Spark2为DataSet/DataFrame提供了一个stat方法，会返回一个DataFrameStatFunctins对象，可以调用其方法来实现数据的探索功能。 1 freqItems 包含了4个重载方法：查看字段中的频繁元素集合，返回每个字段保安一个数组，包含了所有去重后的元素。suppo 阅读全文

posted @ 2019-06-30 22:05 大葱拌豆腐阅读(863) 评论(0) 推荐(1)

spark streaming 流式计算---跨batch连接池共享（JVM共享连接池）

摘要：在流式计算过程中，难免会连接第三方存储平台（redis,mysql...)。在操作过程中，大部分情况是在foreachPartition/mapPartition算子中做连接操作。每一个分区只需要连接一次第三方存储平台就可以了。假如，当前streaming有100分区，当前流式计算宫分配了20个cp 阅读全文

posted @ 2019-06-30 21:32 大葱拌豆腐阅读(692) 评论(0) 推荐(0)

Spark布隆过滤器(bloomFilter)

摘要：数据过滤在很多场景都会应用到，特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重，需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器，有一定的精度损失，但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能，比如hbase框架实现的布隆过阅读全文

posted @ 2019-06-30 13:24 大葱拌豆腐阅读(4315) 评论(0) 推荐(0)

spark性能优化----缓存清除

摘要： spark是一款优秀的框架，计算性能相当优异，已经发展成大数据主流计算引擎，在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果，避免重复计算。其中cache是persist的一个特列（cache相当于persist()）。per 阅读全文

posted @ 2019-06-30 11:20 大葱拌豆腐阅读(4335) 评论(0) 推荐(0)

spark-submit --files 动态加载外部资源文件

摘要：在做spark时，有些时候需要加载资源文件，需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取，需要如下代码：这是直接读取classPath路径下的文件,但是cluster模式下，driver有可能不再程序提交的客户端上，阅读全文

posted @ 2019-06-30 11:08 大葱拌豆腐阅读(3457) 评论(0) 推荐(0)

2019年6月29日

Spark程序进行单元测试-使用scala

摘要： Spark 中进行一些单元测试技巧：最近刚写了一点Spark上的单元测试，大概整理了一些 rdd测试 spark程序一般从集群中读取数据然后通过rdd进行转换，这其中涉及到集群，每次修改bug，上传到集群再运行测试，代价还是挺大;所以尽可能先本地进行单元测试，以减少在集群上运行时错误,特别是map等阅读全文

posted @ 2019-06-29 20:58 大葱拌豆腐阅读(3332) 评论(0) 推荐(0)

spark ml pipeline构建机器学习任务

摘要：一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。因此，对以上多个步骤、进行抽象建模，简化为流水线阅读全文

posted @ 2019-06-29 14:30 大葱拌豆腐阅读(1273) 评论(0) 推荐(0)

2019年6月27日

常用特征离散化方法

摘要： 1规定划分区间的参数，取定长的间隔将特征放入不同的箱子中，这种方法对异常点比较敏感。(等宽) 2 根据频率划分箱子，会出现特征相同却不在一个箱子中的情况，需要在划分完成后进行微调。（等频）先对特征值进行sort，然后评估分割点，划分或者合并 3 1R方法：将前面的m个实例放入箱子中如果后面实例放入箱阅读全文

posted @ 2019-06-27 21:52 大葱拌豆腐阅读(1851) 评论(0) 推荐(0)

公告