随笔分类 -  案例

Spark、Tensorflow、Flink、Kaggle
摘要:[TOC] 直播数字化运营 业务目标 全站观看直播总人数以及走势 房间直播总人数以及走势 热门直播房间及主播Top10,分类目主播Top10 第二部分的DAG如下,图标不能移动只能将就一下了。 结果写入Elasticsearch 写入Elasticsearch的代码都是一个样式,所以在这里统一放出。 阅读全文
posted @ 2019-03-06 12:21 justcodeit 阅读(1230) 评论(0) 推荐(2)
摘要:[TOC] 本案例参考自阿里云的 "视频直播解决方案之视频核心指标监控" 和 "视频直播解决方案之直播数字化运营" 。 基于Kafka + Flink + ELK + Redis实现视频直播数据的实时处理和可视化。 选型仅仅出于练习考虑,Logstash一般会换成flume或者直接用kafka。 模 阅读全文
posted @ 2019-03-06 12:19 justcodeit 阅读(2914) 评论(0) 推荐(0)
摘要:Sensor Data Analytics Application [TOC] 本案例参考自https://github.com/pranav shukla/learningelasticstack/tree/master/chapter 10 ELK版本为5.6.12 数据构成 下面是sql的三个 阅读全文
posted @ 2019-02-27 16:58 justcodeit 阅读(747) 评论(0) 推荐(0)
摘要:基于Spark的GBDT + LR模型实现 [TOC] 测试数据来源http://archive.ics.uci.edu/ml/machine learning databases/adult/ 该模型利用Spark mllib的GradientBoostedTrees作为GBDT部分,因为ml模块 阅读全文
posted @ 2019-02-12 17:43 justcodeit 阅读(7693) 评论(0) 推荐(0)
摘要:实验介绍 数据采用Criteo Display Ads。这个数据一共11G,有13个integer features,26个categorical features。 Spark 由于数据比较大,且只在一个txt文件,处理前用 对数据进行切分。 连续型数据利用log进行变换,因为从实时训练的角度上来 阅读全文
posted @ 2019-01-31 18:24 justcodeit 阅读(2129) 评论(1) 推荐(0)
摘要:本项目主要关注实现,数据分析、特征工程涉及较少,而且数据量较大,并没有进行多次调参。 另外,由于数据的分类极其不平衡,本项目尝试使用SMOTE增加偏少类的样本数量。 RangeIndex: 328553 entries, 0 to 328552 Data columns (total 21 colu 阅读全文
posted @ 2019-01-19 22:50 justcodeit 阅读(894) 评论(0) 推荐(0)
摘要:[TOC] 本文是原项目的一次重写。主要是用DataFrame代替原来的RDD,并在一些实现上进行优化,还有就是实时流计算改用Flink进行实现。 项目分为用户访问session模块、页面转跳转化率统计、热门商品离线统计和广告流量实时统计四部分组成。 业务需求 用户访问session 该模块主要是对 阅读全文
posted @ 2018-12-30 18:03 justcodeit 阅读(4610) 评论(0) 推荐(3)
摘要:[TOC] 项目概要 需求 手机应用日志 定期离线分析手机应用新增用户、活跃用户、沉默用户、启动次数、版本分布和留存用户等业务指标。 工作流程 1. 手机APP启动时,上报启动日志、错误日志、页面日志、事件日志、使用时长日志等信息到日志收集服务器。 2. 日志收集服务器将收集到的日志信息发送给kaf 阅读全文
posted @ 2018-12-27 22:28 justcodeit 阅读(960) 评论(0) 推荐(0)
摘要:[TOC] 这个项目的整体业务逻辑是通过Spring进行搭建,并部署在Tomcat上的。业务产生的数据一部分被存储到mongoDB并用于spark sql和ml的离线计算。另一部分被传送到Flume,经kafka到达spark streaming进行实时计算。还有一部分数据存储到redis,同样运用 阅读全文
posted @ 2018-11-08 17:27 justcodeit 阅读(6190) 评论(10) 推荐(0)
摘要:本文只展示核心代码,完整代码见文末链接。 Web Log Analysis 1. 提取需要的log信息,包括time, traffic, ip, web address 2. 进一步解析第一步获得的log信息,如把ip转换为对应的省份,从网址中提取出访问内容和内容ID,最后将信息转换为parquet 阅读全文
posted @ 2018-10-29 19:43 justcodeit 阅读(671) 评论(0) 推荐(0)
摘要:下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测。 scala 2.11.12 spark 2.2.2 阅读全文
posted @ 2018-10-29 19:07 justcodeit 阅读(418) 评论(0) 推荐(0)