摘要: 第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。 阅读全文
posted @ 2020-11-07 15:56 十一vs十一 阅读(358) 评论(0) 推荐(0)
摘要: 第1章 Spark Streaming概述 1.1 离线和实时概念 数据处理的延迟 离线计算 就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式; 实时计算 输 阅读全文
posted @ 2020-11-07 15:49 十一vs十一 阅读(413) 评论(0) 推荐(0)
摘要: 1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问 阅读全文
posted @ 2020-11-07 14:37 十一vs十一 阅读(201) 评论(0) 推荐(1)
摘要: 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交Spa 阅读全文
posted @ 2020-11-07 11:35 十一vs十一 阅读(347) 评论(0) 推荐(0)
摘要: 第1章 Scala入门 1.1 概述 1.1.1 为什么学习Scala 1.1.2 Scala发展历史 1.1.3 Scala和Java关系 一般来说,学Scala的人,都会Java,而Scala是基于Java的,因此我们需要将Scala和Java以及JVM之间的关系搞清楚,否则学习Scala你会蒙 阅读全文
posted @ 2020-11-07 11:10 十一vs十一 阅读(730) 评论(0) 推荐(0)
摘要: 一、Linux 1、写出常用的5个高级命令 top/ps iotop tail tar df -h find netstat crontab 2、查看端口号、查看进程、查看磁盘使用情况 、配置定时器 netstat ps -aux df -h crontab 二、Shell 1、shell的工具(知 阅读全文
posted @ 2020-11-07 10:42 十一vs十一 阅读(158) 评论(0) 推荐(0)
摘要: 第1章 Zabbix入门 1.1 Zabbix概述 Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。 1.2 阅读全文
posted @ 2020-11-07 10:41 十一vs十一 阅读(350) 评论(0) 推荐(0)