随笔分类 - spark感悟和实践
简单聊聊spark的技术,大家相互交流和学习
摘要:机器数据的来源 何为机器数据,就对其字面意思理解,机器产生的数据。那机器数据具体都是怎样的?比如:日志数据、监控摄像图传过来的数据、手机传过来的数据、传感器传过来的、扫码.....几乎遍布生活的点点滴滴。 机器数据的传统解决方案 对于这样的数据,以前的IT运维监控、视频监控软件、动力环境系统都有实现
阅读全文
摘要:工作中的问题总结: 问题一:scala 之向下转型 引言:假如在复杂的业务逻辑中,变量的类型不能确认,只能给个接口类型,这样数据类型推导不会错误,但是后面要使用实现类的类型时,你却发现转不过来了? 对于这样的一个问题,scala可以这样解决: 首先建造一个接口,People: 这样定义了一个接口,接
阅读全文
摘要:上讲,讲述了大概九种的技术种类以及他们的领域。那么既然有吃饭的,那就必须有做饭的。因此大数据技术结构的选型,必须有的组成部分至少三种(来源、计算、存储) 最简单的数据处理架构: 最少单元的数据处理方案,当然这个不是最好的,为什么呢,问题: 1.流式处理数据(Streaming)时,数据量小时,数据存
阅读全文
摘要:/apps/app/spark-1.6.1-bin-hadoop2.6/bin/spark-submit --class com.zdhy.zoc2.sparksql.core.JavaSparkSqlLogRegularApp --files /apps/app/apache-hive-1.2.1
阅读全文
摘要:企业级大数据处理方案有三种业务场景: 1.离线处理;(mapreduce(第一代)、sparksql(第二代)) 2.实时处理;(数据库操作、storm) 3.准实时处理。(spark Streaming) mapreduce与spark对比 mr与spark优缺点对比:(一) a.mapreduc
阅读全文

浙公网安备 33010602011771号