摘要: 1.hdfs的架构介绍 datanode定时向namenode做心跳汇报: namenode管理元数据: a.txt /test/input/a.txt 元数据会记录a.txt的存储路径吗?不会记录存储路径,只会记录a.txt的存储节点node01,datanode做心跳的时候,将当前存储的列表返回 阅读全文
posted @ 2019-08-04 23:12 jeasonchen001 阅读(85) 评论(0) 推荐(0)
摘要: 1.三台虚拟机环境准备(重要) 2.linux基础和shell脚本的增强 3.大数据集群环境的准备(重要) 4.zookeeper的介绍和集群操作 5.网络编程(了解) 1.虚拟机的创建并联网 FDQN:全限定域名 机器名+域名的方式进行命名。 虚拟机默认用户名:root 密码:123456 2.l 阅读全文
posted @ 2019-08-04 23:11 jeasonchen001 阅读(120) 评论(0) 推荐(0)
摘要: PyCharm3.0默认快捷键 PyCharm Default Keymap 1、编辑(Editing) Ctrl + Space 基本的代码完成(类、方法、属性) Ctrl + Alt + Space 快速导入任意类 Ctrl + Shift + Enter 语句完成 Ctrl + P 参数信息( 阅读全文
posted @ 2019-07-24 20:25 jeasonchen001 阅读(623) 评论(0) 推荐(0)
摘要: 反爬虫项目开发 项目介绍 项目背景 为什么要有反爬虫项目 爬虫程序大量占用我们的系统资源,比如带宽/计算能力等 爬虫程序进行预订/抢票影响我们的正常业务. 导入反爬WEB工程 创建一个maven工程 创建一个module 将反扒参考资料\项目代码\WebProject中的代码拷贝到新建的module 阅读全文
posted @ 2019-07-15 22:43 jeasonchen001 阅读(329) 评论(0) 推荐(0)
摘要: 反爬虫项目开发 项目介绍 项目背景 为什么要有反爬虫项目 爬虫程序大量占用我们的系统资源,比如带宽/计算能力等 爬虫程序进行预订/抢票影响我们的正常业务. 导入反爬WEB工程 1. 创建一个maven工程 2. 创建一个module 3. 将反扒参考资料\项目代码\WebProject中的代码拷贝到 阅读全文
posted @ 2019-07-15 22:41 jeasonchen001 阅读(116) 评论(0) 推荐(0)
摘要: SparkStreaming 1.课程目标 掌握SparkStreaming原理和架构 掌握DStream常用的操作 掌握SparkStreaming整合flume 掌握SparkStreaming整合kafka 2.SparkStreaming概念 SparkStreaming是用来开发实时数据处 阅读全文
posted @ 2019-07-15 22:35 jeasonchen001 阅读(128) 评论(0) 推荐(0)
摘要: SparkSQL 1.课程目标 掌握Spark SQL原理 熟悉SparkSQL编程模型DataFrame和DataSet以及SQL 熟练使用SparkSQL完成计算任务 2.SparkSQL概述 Spark SQL is Apache Spark's module for working with 阅读全文
posted @ 2019-07-15 22:34 jeasonchen001 阅读(122) 评论(0) 推荐(0)
摘要: Spark day01 1.学习目标 了解spark相关背景以及其框架特点 掌握搭建spark集群(尤其是高可用集群搭建) (重点) 掌握spark应用程序开发以及运行 (重点) 掌握Spark框架中的角色 (重点) 2. Spark概述 官网:http://spark.apache.org/ Ap 阅读全文
posted @ 2019-07-15 22:33 jeasonchen001 阅读(157) 评论(0) 推荐(0)
摘要: Spark计算模型RDD 1.课程目标 掌握RDD的原理 熟练使用RDD的算子完成计算任务 掌握RDD的宽窄依赖 掌握RDD的缓存机制 掌握划分stage 掌握spark的任务调度流程 2.RDD概述 A Resilient Distributed Dataset (RDD):弹性分布式数据集合。并 阅读全文
posted @ 2019-07-15 22:33 jeasonchen001 阅读(176) 评论(0) 推荐(0)
摘要: Scala高级特性 1.课程目标 深入理解高阶函数 闭包函数 柯里化函数 深入理解隐式方法 隐式变量以及隐式参数 综合案例 模拟Spark任务调度 2.高阶函数 闭包函数 柯里化函数 2.1 高阶函数 概念:如果一个方法的参数列表包含有函数对象,那么这个方法就称之为高阶函数或者高阶方法 定义格式: 阅读全文
posted @ 2019-07-15 22:32 jeasonchen001 阅读(102) 评论(0) 推荐(0)