摘要:
向导 数据结构 视频表 用户表 需求描述 解答 1. 统计视频观看数Top10 2. 统计视频类别热度Top10 3. 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 4. 统计视频观看数Top50所关联视频的所属类别排序 5. 统计每个类别中的视频热度,视频流量,观看数 阅读全文
posted @ 2020-10-19 22:13
十一vs十一
阅读(977)
评论(0)
推荐(0)
摘要:
一、hive架构相关 二、hive的特点 三、内部表和外部表的区别? 四、4个by的区别? 五、介绍一下有哪些常用函数? 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数(开窗函数) 六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UDTF的区别 阅读全文
posted @ 2020-10-19 22:09
十一vs十一
阅读(3524)
评论(0)
推荐(0)
摘要:
本文目录 一、hive架构相关 二、hive的特点 三、内部表和外部表的区别? 四、4个by的区别? 五、介绍一下有哪些常用函数? 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数(开窗函数) 六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UD 阅读全文
posted @ 2020-10-19 17:45
十一vs十一
阅读(2795)
评论(0)
推荐(1)
摘要:
hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化 (1)hive的使用:仓库,工具 (2)内部表:加载数据到hive所在的hdfs目录,删除时,元数据文件都删除 外部表:不加载数据到Hive所在的hdfs目录,删除时,只删除表结构 (3)分区作用:防止数据倾斜 (4)UDF函 阅读全文
posted @ 2020-10-19 17:44
十一vs十一
阅读(139)
评论(0)
推荐(0)
摘要:
Hive 原理 1. 用户提交查询等任务给Driver。 2. 编译器获得该用户的任务Plan。 3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。 4. 编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语 阅读全文
posted @ 2020-10-19 17:43
十一vs十一
阅读(422)
评论(0)
推荐(0)
摘要:
文章目录 1.什么是hive 2.为什么要用hive 3.hive几种基本表类型 4.内部表(管理表)和外部表的区别 5.Hive数据仓库与数据库的异同 6.Hive 自定义函数 7.Hive中4种排序的区别 8.把数据加载到hive表中? 9.hive创建表的方式及区别 10.hive元数据存放的 阅读全文
posted @ 2020-10-19 17:36
十一vs十一
阅读(592)
评论(0)
推荐(0)
摘要:
(九)Hive的5个面试题 目录 一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析 二、学生课程成绩 1、说明 2、需求 三、求每一年最大气温的那一天 + 温度四、求学生选课情况 1、说明 2、 需求 3、解析 1、数据说明 2、数据准备 3、需求 4、解析 五 阅读全文
posted @ 2020-10-19 17:35
十一vs十一
阅读(395)
评论(0)
推荐(0)
摘要:
Hive面试题整理(一) 1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆) 1)倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 (1)key分布不均匀; (2)业务 阅读全文
posted @ 2020-10-19 17:34
十一vs十一
阅读(664)
评论(0)
推荐(0)
摘要:
1.Hive表关联查询,如何解决数据倾斜的问题 2.谈一下hive的特点,以及hive和RDBMS有什么异同 3.说一下hive中sort by、order by、cluster by、distribute by各代表的意思 4.简要描述数据库中的 null,说出null在hive底层如何存储,并解 阅读全文
posted @ 2020-10-19 17:33
十一vs十一
阅读(337)
评论(0)
推荐(0)
摘要:
1)Hive数据倾斜问题: 倾斜原因: map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。 1.1)key分布不均匀 1.2)业务数据本身的特性 1.3)SQL语句造成数据倾斜 解决方案: 1>参数调节: 阅读全文
posted @ 2020-10-19 17:31
十一vs十一
阅读(202)
评论(0)
推荐(0)
摘要:
1.Hive数据倾斜问题。数据倾斜:数据倾斜主要表现在,map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点所处 阅读全文
posted @ 2020-10-19 17:16
十一vs十一
阅读(2411)
评论(0)
推荐(0)
摘要:
1. Hive数据倾斜 原因 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第 阅读全文
posted @ 2020-10-19 17:14
十一vs十一
阅读(314)
评论(0)
推荐(0)
摘要:
3 3 4 第一题:1.创建 hadoop 帐户。 2.setup.改 IP。 3.安装 java,并修改/etc/profile 文件,配置 java 的环境变量。 4.修改 Host 文件域名。 5.安装 SSH,配置无密钥通信。 6.解压 hadoop。 7.配置 conf 文件下 hadoo 阅读全文
posted @ 2020-10-19 16:36
十一vs十一
阅读(199)
评论(0)
推荐(0)
摘要:
一、来自****提供的面试题(14** 道): 第一题:1.创建 hadoop 帐户。 2.setup.改 IP。 3.安装 java,并修改/etc/profile 文件,配置 java 的环境变量。 4.修改 Host 文件域名。 5.安装 SSH,配置无密钥通信。 6.解压 hadoop。 7 阅读全文
posted @ 2020-10-19 16:34
十一vs十一
阅读(548)
评论(0)
推荐(0)
摘要:
阿里四轮面试总结 第一轮面试电话(**5** 月 6 号): 1.自我介绍,包括做过项目。 2.有看过哪些 JDK 源码,了解哪些常用库。 3.集合框架 HashMap 的扩容机制,ConcurrnetHashMap 的原理 4.jvm 内存模型与 gc 内存回收机制 5.classloader 结 阅读全文
posted @ 2020-10-19 16:33
十一vs十一
阅读(452)
评论(0)
推荐(0)
摘要:
1.1. 导出时报错1.1.1. Could not buffer record在import的时候设置--inline-lob-limit <n> 设置内联的LOB对象的大小1.1.2. Packet for query is too large (1136885 > 1048576). You 阅读全文
posted @ 2020-10-19 16:29
十一vs十一
阅读(308)
评论(0)
推荐(0)
摘要:
安装文档 1. 安装依赖 yum -y install gcc yum -y install gcc-c++ yum -y install ruby yum -y install rubygem* yum -y install ruby-rdoc yum -y install ruby-devel 阅读全文
posted @ 2020-10-19 16:26
十一vs十一
阅读(114)
评论(0)
推荐(0)
摘要:
115个Java面试题和答案——终极列表(上) 2016-04-30 小马哥 java一日一条 本文我们将要讨论Java面试中的各种不同类型的面试题,它们可以让雇主测试应聘者的Java和通用的面向对象编程的能力。下面的章节分为上下两篇,第一篇将要讨论面向对象编程和它的特点,关于Java和它的功能的常 阅读全文
posted @ 2020-10-19 16:13
十一vs十一
阅读(70)
评论(0)
推荐(0)
摘要:
1、面向对象的特征有哪些方面(1).抽象:抽象就是忽略一个主题中与当前目标无关的那些方面,以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题,而只是选择其中的一部分,暂时不用部分细节。抽象包括两个方面,一是过程抽象,二是数据抽象。(2).继承:继承是一种联结类的层次模型,并且允许和鼓励类 阅读全文
posted @ 2020-10-19 16:08
十一vs十一
阅读(135)
评论(0)
推荐(0)
摘要:
大数据工程师面试题 1. 选择题 1.1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案 C datanode 1.2. HDfS 中的 block 默认保存几份 阅读全文
posted @ 2020-10-19 16:03
十一vs十一
阅读(527)
评论(0)
推荐(0)
摘要:
RDD[T] Transformations rdd api 备注 persist/cache map(f: T => U) keyBy(f: T => K) 特殊的map,提key flatMap(f: T => Iterable[U]) map的一种,类似UDTF filter(f: T => 阅读全文
posted @ 2020-10-19 15:59
十一vs十一
阅读(144)
评论(0)
推荐(0)
摘要:
RDD弹性分布式数据集 集合分布式的 1、最重要的特性:分区RDD究竟是如何分区? 从外部加载数据时,比如HDFS,分区数与HDFS的block数一致从内部的单机List中加载数据为RDD,parallelize(numpartition)从mysql等非内置支持的数据源加载数据,分区就取决于自定义 阅读全文
posted @ 2020-10-19 15:56
十一vs十一
阅读(191)
评论(0)
推荐(0)
摘要:
本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。 说明 按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式 阅读全文
posted @ 2020-10-19 15:54
十一vs十一
阅读(569)
评论(0)
推荐(0)
摘要:
资源调度 程序一旦创建sparkcontext,就会创建DAGScheduler、TaskScheduler、SparkDeploySchedulerBackendSparkDeploySchedulerBackend一启动就会创建一个子actor:AppClientAppClient一启动,就会将 阅读全文
posted @ 2020-10-19 15:51
十一vs十一
阅读(171)
评论(0)
推荐(0)
摘要:
Option[T] 详解 前言 Java 里的 Null Pointer Exception写过一阵子的Java后, 应该会对NullPointerException (NPE)这种东西很熟悉,基本上会碰到这种异常,就是你有一个变量是 null,但你却调用了它的方法,或是取某个的值。举例而言,下面的 阅读全文
posted @ 2020-10-19 15:50
十一vs十一
阅读(141)
评论(0)
推荐(0)
摘要:
Spark配置参数说明 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-env.sh脚本设置,例如IP地址、端口等信息 日志配置:可以通过log4j.propert 阅读全文
posted @ 2020-10-19 15:38
十一vs十一
阅读(335)
评论(0)
推荐(0)
摘要:
python数据类型详解 内容大纲 1、字符串 2、布尔类型 3、整数 4、浮点数 5、数字 6、列表 7、元组 8、字典 9、日期 1、字符串 1.1、如何在Python中使用字符串 a、使用单引号(') 用单引号括起来表示字符串,例如: str='this is string'; print s 阅读全文
posted @ 2020-10-19 15:36
十一vs十一
阅读(121)
评论(0)
推荐(0)
摘要:
游戏运营分析项目 1. 课程目标 1.1. 熟练使用Spark解决实现生产问题 1.2. 熟悉游戏领域大数据分析相关概念 1.3. 掌握游戏领域大数据分析的步骤和方法 2. 项目背景 2.1. 概述 目前大数据已经在各个领域得到广泛应用,在游戏领域玩家的各种行为会产生大量的数据,这些数据可以帮助游戏 阅读全文
posted @ 2020-10-19 15:00
十一vs十一
阅读(122)
评论(0)
推荐(0)
摘要:
Redis3集群安装 1. 什么是Redis Redis是目前一个非常优秀的key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set有序集合)和hash(哈希类型)。 2. 阅读全文
posted @ 2020-10-19 14:59
十一vs十一
阅读(78)
评论(0)
推荐(0)
摘要:
1. 全文检索基础 1.1. 我们身边的搜索功能 Windows系统中的有搜索功能:打开“我的电脑”,按“F3”就可以使用查找的功能,查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。 Eclipse中的帮助子系统:点击HelpàHelp Contents,可以查找出相关的帮助信息。搜索的范 阅读全文
posted @ 2020-10-19 14:52
十一vs十一
阅读(142)
评论(0)
推荐(0)
摘要:
1.安装zk集群 2.config/server.properties添加zk地址:zookeeper.connect=node-1:2181,node-2:2181,node-3:2181修改broker.id(唯一的):broker.id=0 3.启动/bin/kafka-server-star 阅读全文
posted @ 2020-10-19 14:37
十一vs十一
阅读(68)
评论(0)
推荐(0)
摘要:
Spark Streaming 1. 课程目标 1.1. 掌握Spark Streaming的原理 1.2. 熟练使用Spark Streaming完成流式计算任务 2. Spark Streaming介绍 2.1. Spark Streaming概述 2.1.1. 什么是Spark Streami 阅读全文
posted @ 2020-10-19 11:56
十一vs十一
阅读(88)
评论(0)
推荐(0)
摘要:
1.从TCP端口中读取数据yum install ncnc -lk 9000#注意:要指定并行度,如在本地运行设置setMaster("local[2]"),相当于启动两个线程,一个给receiver,一个给computer。#如果是在集群中运行,必须要求集群中可用core数大于1 #提交spark 阅读全文
posted @ 2020-10-19 11:53
十一vs十一
阅读(90)
评论(0)
推荐(0)
摘要:
1.上传zk安装包 2.解压 3.配置(先在一台节点上配置) 3.1添加一个zoo.cfg配置文件 $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg 3.2修改配置文件(zoo.cfg) dataDir=/itcast/zookeeper-3.4.5/data se 阅读全文
posted @ 2020-10-19 11:52
十一vs十一
阅读(67)
评论(0)
推荐(0)
摘要:
setJars start-all.sh -> start-master.sh -> start-slaves.sh //Master启动的脚本start-master.sh -> spark-daemon.sh start org.apache.spark.deploy.master.Master 阅读全文
posted @ 2020-10-19 11:16
十一vs十一
阅读(100)
评论(0)
推荐(0)
摘要:
Spark入门 1. 课程目标 2 1.1. 目标1:熟悉Spark相关概念 2 1.2. 目标2:搭建Spark集群 2 1.3. 目标3:编写简单的Spark应用程序 2 2. Spark概述 2 2.1. 什么是Spark(官网:http://spark.apache.org) 2 2.2. 阅读全文
posted @ 2020-10-19 11:10
十一vs十一
阅读(194)
评论(0)
推荐(0)
摘要:
Spark计算模型 1. 课程目标 1.1. 熟练使用RDD的算子完成计算 1.2. 掌握RDD的原理 2. 弹性分布式数据集RDD 2.1. RDD概述 2.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象 阅读全文
posted @ 2020-10-19 11:08
十一vs十一
阅读(109)
评论(0)
推荐(0)
摘要:
Spark Streaming 1. 课程目标 1.1. 掌握Spark Streaming的原理 1.2. 熟练使用Spark Streaming完成流式计算任务 2. Spark Streaming介绍 2.1. Spark Streaming概述 2.1.1. 什么是Spark Streami 阅读全文
posted @ 2020-10-19 10:08
十一vs十一
阅读(116)
评论(0)
推荐(0)
摘要:
Spark SQL and DataFrame 1. 课程目标 1.1. 掌握Spark SQL的原理 1.2. 掌握DataFrame数据结构和使用方式 1.3. 熟练使用Spark SQL完成计算任务 2. Spark SQL 2.1. Spark SQL概述 2.1.1. 什么是Spark S 阅读全文
posted @ 2020-10-19 10:03
十一vs十一
阅读(145)
评论(0)
推荐(0)
摘要:
IntelliJ Idea 常用快捷键列表 Ctrl+Alt+t 选择代码块 try catch Alt+回车 导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set 阅读全文
posted @ 2020-10-19 09:32
十一vs十一
阅读(106)
评论(0)
推荐(0)
摘要:
Scala编程实战 1. 课程目标 1.1. 目标:熟练使用Scala编写程序 2. 项目概述 2.1. 需求 目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某 阅读全文
posted @ 2020-10-19 09:30
十一vs十一
阅读(99)
评论(0)
推荐(0)
摘要:
Scala高级特性 1. 课程目标 1.1. 目标一:深入理解高阶函数 1.2. 目标一:深入理解隐式转换 2. 高阶函数 2.1. 概念 Scala混合了面向对象和函数式的特性,我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、 阅读全文
posted @ 2020-10-19 09:29
十一vs十一
阅读(101)
评论(0)
推荐(0)
摘要:
Scala Actor 1. 课程目标 1.1. 目标一:熟悉Scala Actor并发编程 1.2. 目标二:为学习Akka做准备 注:我们现在学的Scala Actor是scala 2.10.x版本及以前版本的Actor。 Scala在2.11.x版本中将Akka加入其中,作为其默认的Actor 阅读全文
posted @ 2020-10-19 09:27
十一vs十一
阅读(117)
评论(0)
推荐(0)
摘要:
Scala编程 1. 课程目标 2 1.1. 目标1:(初级)熟练使用scala编写Spark程序 2 1.2. 目标2:(中级)动手编写一个简易Spark通信框架 3 1.3. 目标3:(高级)为阅读Spark内核源码做准备 4 2. Scala概述 4 2.1. 什么是Scala 4 2.2. 阅读全文
posted @ 2020-10-19 09:25
十一vs十一
阅读(201)
评论(0)
推荐(0)
摘要:
问题: 1,kafka+storm如何保证消息完整处理。 一条消息产生 Kafka--KafkaSpout-Storm >Redis 问题1:kafka数据生产消费如何保证消息的完整处理 Producer-batch(缓存机制queue)--重试机制 >ack(-1,1,0) Broker(part 阅读全文
posted @ 2020-10-19 09:21
十一vs十一
阅读(111)
评论(0)
推荐(0)
摘要:
问题:1、集群如何启动,任务如何执行?java -server nimubs,supervisorclient >createTopology(序列化) >提交jar到nimbuinbox >nimbus分配任务(task总数/worker数) 写到zk。启动worker< 识别自己的任务< sup 阅读全文
posted @ 2020-10-19 09:20
十一vs十一
阅读(79)
评论(0)
推荐(0)
摘要:
1、kafka是什么 类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是 阅读全文
posted @ 2020-10-19 09:17
十一vs十一
阅读(101)
评论(0)
推荐(0)
摘要:
Storm启动流程分析 程序员client 1、客户端运行storm nimbus时,会调用storm的python脚本,该脚本中为每个命令编写一个方法,每个方法都可以生成一条相应的java命令。 命令格式如下:java -server xxxx.ClassName -args nimbus > R 阅读全文
posted @ 2020-10-19 09:16
十一vs十一
阅读(133)
评论(0)
推荐(0)
摘要:
1、编程模型 DataSource:外部数据源 Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介 阅读全文
posted @ 2020-10-19 09:15
十一vs十一
阅读(100)
评论(0)
推荐(0)
浙公网安备 33010602011771号