随笔分类 - Spark编程
Core、SQL、DStreams、Structured Streaming 和 MLlib知识
摘要:基于Spark的GBDT + LR模型实现 [TOC] 测试数据来源http://archive.ics.uci.edu/ml/machine learning databases/adult/ 该模型利用Spark mllib的GradientBoostedTrees作为GBDT部分,因为ml模块
阅读全文
摘要:实验介绍 数据采用Criteo Display Ads。这个数据一共11G,有13个integer features,26个categorical features。 Spark 由于数据比较大,且只在一个txt文件,处理前用 对数据进行切分。 连续型数据利用log进行变换,因为从实时训练的角度上来
阅读全文
摘要:[TOC] 本文是原项目的一次重写。主要是用DataFrame代替原来的RDD,并在一些实现上进行优化,还有就是实时流计算改用Flink进行实现。 项目分为用户访问session模块、页面转跳转化率统计、热门商品离线统计和广告流量实时统计四部分组成。 业务需求 用户访问session 该模块主要是对
阅读全文
摘要:[TOC] Spark SQL/DF的执行过程 将上层的SQL语句映射为底层的RDD模型。 写代码(DF/Dataset/SQL)并提交 Parser解析后得到unresolved logical plan(代码合法但未判断data是否存在、数据类型) Analyzer分析对比Catalog(里面绑
阅读全文
摘要:[TOC] 下面调优主要基于2.0以后。 代码优化 1.语言选择 如果是ETL并进行单节点机器学习,SparkR或Python。优点:语言相对简单;缺点:使用语言自身的数据结构时,效率低,因为这些数据需要转换。 如果用到自定义transformations或自定义类,Scala或Java。优点:性能
阅读全文
摘要:[TOC] 1.数据倾斜 来源:读取数据之后,包括从数据源读取和shuffle后读取 后果:大部分task和小部分task完成时间相差很大、OOM(也有可能时异常数据的问题,需要完善代码)。 分析:用sample + countBykey 除以count判断key的分布情况。 解决方法: 1. 采用
阅读全文
摘要:[TOC] 这个项目的整体业务逻辑是通过Spring进行搭建,并部署在Tomcat上的。业务产生的数据一部分被存储到mongoDB并用于spark sql和ml的离线计算。另一部分被传送到Flume,经kafka到达spark streaming进行实时计算。还有一部分数据存储到redis,同样运用
阅读全文
摘要:本文只展示核心代码,完整代码见文末链接。 Web Log Analysis 1. 提取需要的log信息,包括time, traffic, ip, web address 2. 进一步解析第一步获得的log信息,如把ip转换为对应的省份,从网址中提取出访问内容和内容ID,最后将信息转换为parquet
阅读全文
摘要:下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测。 scala 2.11.12 spark 2.2.2
阅读全文
摘要:[TOC] Part V. Streaming 版本以2.2的Structured Streaming为主,部分也有后续新版本的说明。 Stream Processing Fundamentals 1.概念 流处理就是不断地整合新数据计算新结果。批量处理是固定输入量计算一次。Structured S
阅读全文
摘要:[TOC] Part VI. Advanced Analytics and Machine Learning Advanced Analytics and Machine Learning Overview 1.A Short Primer on Advanced Analytics 目的 :der
阅读全文
摘要:[TOC] Part III. Low Level APIs 通常用Part II的APIs就够了,它通常“more efficient, more stable, and more expressive”,还能省内存。 需要底层APIs的情况: 高层无法满足,如准确控制数据的物理位置 维护一些RD
阅读全文
摘要:[TOC] 本文代码主要基于Spark2.2,Scala 2.11,Python3 由于用Scala和Python编写的Spark application代码十分类似,所以本文只展示Scala代码,与Python不同的地方会说明。 Part I. Gentle Overview of Big Dat
阅读全文

浙公网安备 33010602011771号