摘要:
1.hdfs的架构介绍 datanode定时向namenode做心跳汇报: namenode管理元数据: a.txt /test/input/a.txt 元数据会记录a.txt的存储路径吗?不会记录存储路径,只会记录a.txt的存储节点node01,datanode做心跳的时候,将当前存储的列表返回
阅读全文
posted @ 2019-08-04 23:12
jeasonchen001
阅读(85)
推荐(0)
摘要:
1.三台虚拟机环境准备(重要) 2.linux基础和shell脚本的增强 3.大数据集群环境的准备(重要) 4.zookeeper的介绍和集群操作 5.网络编程(了解) 1.虚拟机的创建并联网 FDQN:全限定域名 机器名+域名的方式进行命名。 虚拟机默认用户名:root 密码:123456 2.l
阅读全文
posted @ 2019-08-04 23:11
jeasonchen001
阅读(120)
推荐(0)
摘要:
PyCharm3.0默认快捷键 PyCharm Default Keymap 1、编辑(Editing) Ctrl + Space 基本的代码完成(类、方法、属性) Ctrl + Alt + Space 快速导入任意类 Ctrl + Shift + Enter 语句完成 Ctrl + P 参数信息(
阅读全文
posted @ 2019-07-24 20:25
jeasonchen001
阅读(623)
推荐(0)
摘要:
反爬虫项目开发 项目介绍 项目背景 为什么要有反爬虫项目 爬虫程序大量占用我们的系统资源,比如带宽/计算能力等 爬虫程序进行预订/抢票影响我们的正常业务. 导入反爬WEB工程 创建一个maven工程 创建一个module 将反扒参考资料\项目代码\WebProject中的代码拷贝到新建的module
阅读全文
posted @ 2019-07-15 22:43
jeasonchen001
阅读(329)
推荐(0)
摘要:
反爬虫项目开发 项目介绍 项目背景 为什么要有反爬虫项目 爬虫程序大量占用我们的系统资源,比如带宽/计算能力等 爬虫程序进行预订/抢票影响我们的正常业务. 导入反爬WEB工程 1. 创建一个maven工程 2. 创建一个module 3. 将反扒参考资料\项目代码\WebProject中的代码拷贝到
阅读全文
posted @ 2019-07-15 22:41
jeasonchen001
阅读(116)
推荐(0)
摘要:
SparkStreaming 1.课程目标 掌握SparkStreaming原理和架构 掌握DStream常用的操作 掌握SparkStreaming整合flume 掌握SparkStreaming整合kafka 2.SparkStreaming概念 SparkStreaming是用来开发实时数据处
阅读全文
posted @ 2019-07-15 22:35
jeasonchen001
阅读(128)
推荐(0)
摘要:
SparkSQL 1.课程目标 掌握Spark SQL原理 熟悉SparkSQL编程模型DataFrame和DataSet以及SQL 熟练使用SparkSQL完成计算任务 2.SparkSQL概述 Spark SQL is Apache Spark's module for working with
阅读全文
posted @ 2019-07-15 22:34
jeasonchen001
阅读(122)
推荐(0)
摘要:
Spark day01 1.学习目标 了解spark相关背景以及其框架特点 掌握搭建spark集群(尤其是高可用集群搭建) (重点) 掌握spark应用程序开发以及运行 (重点) 掌握Spark框架中的角色 (重点) 2. Spark概述 官网:http://spark.apache.org/ Ap
阅读全文
posted @ 2019-07-15 22:33
jeasonchen001
阅读(157)
推荐(0)
摘要:
Spark计算模型RDD 1.课程目标 掌握RDD的原理 熟练使用RDD的算子完成计算任务 掌握RDD的宽窄依赖 掌握RDD的缓存机制 掌握划分stage 掌握spark的任务调度流程 2.RDD概述 A Resilient Distributed Dataset (RDD):弹性分布式数据集合。并
阅读全文
posted @ 2019-07-15 22:33
jeasonchen001
阅读(176)
推荐(0)
摘要:
Scala高级特性 1.课程目标 深入理解高阶函数 闭包函数 柯里化函数 深入理解隐式方法 隐式变量以及隐式参数 综合案例 模拟Spark任务调度 2.高阶函数 闭包函数 柯里化函数 2.1 高阶函数 概念:如果一个方法的参数列表包含有函数对象,那么这个方法就称之为高阶函数或者高阶方法 定义格式:
阅读全文
posted @ 2019-07-15 22:32
jeasonchen001
阅读(102)
推荐(0)