2020 年 10月 19 日随笔档案 - 十一vs十一

2020年10月19日

摘要：向导数据结构视频表用户表需求描述解答 1. 统计视频观看数Top10 2. 统计视频类别热度Top10 3. 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 4. 统计视频观看数Top50所关联视频的所属类别排序 5. 统计每个类别中的视频热度，视频流量，观看数阅读全文

posted @ 2020-10-19 22:13 十一vs十一阅读(977) 评论(0) 推荐(0)

hive面试题总结（2020最新版） hive优化方面 ---阿善重要

摘要：一、hive架构相关二、hive的特点三、内部表和外部表的区别？四、4个by的区别？五、介绍一下有哪些常用函数？ 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数（开窗函数）六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UDTF的区别阅读全文

posted @ 2020-10-19 22:09 十一vs十一阅读(3524) 评论(0) 推荐(0)

hive面试题总结（2020最新版）

摘要：本文目录一、hive架构相关二、hive的特点三、内部表和外部表的区别？四、4个by的区别？五、介绍一下有哪些常用函数？ 5.1、行转列函数 5.2、列转行函数 5.3、Rank排名函数 5.4、窗口函数（开窗函数）六、UDF、UDAF、UDTF相关面试题 6.1、UDF、UDAF、UD 阅读全文

posted @ 2020-10-19 17:45 十一vs十一阅读(2795) 评论(0) 推荐(1)

Hive常见面试题1.0

摘要： hive 的使用，内外部表的区别，分区作用， UDF 和 Hive 优化（1）hive的使用：仓库，工具（2）内部表：加载数据到hive所在的hdfs目录，删除时，元数据文件都删除外部表：不加载数据到Hive所在的hdfs目录，删除时，只删除表结构（3）分区作用：防止数据倾斜（4）UDF函阅读全文

posted @ 2020-10-19 17:44 十一vs十一阅读(139) 评论(0) 推荐(0)

Hive面试题收集 ---阿善重要

摘要： Hive 原理 1. 用户提交查询等任务给Driver。 2. 编译器获得该用户的任务Plan。 3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。 4. 编译器Compiler得到元数据信息，对任务进行编译，先将HiveQL转换为抽象语法树，然后将抽象语阅读全文

posted @ 2020-10-19 17:43 十一vs十一阅读(422) 评论(0) 推荐(0)

大数据的那些面试题及答案(三)Hive ---阿善重要

摘要：文章目录 1.什么是hive 2.为什么要用hive 3.hive几种基本表类型 4.内部表（管理表）和外部表的区别 5.Hive数据仓库与数据库的异同 6.Hive 自定义函数 7.Hive中4种排序的区别 8.把数据加载到hive表中？ 9.hive创建表的方式及区别 10.hive元数据存放的阅读全文

posted @ 2020-10-19 17:36 十一vs十一阅读(592) 评论(0) 推荐(0)

Hive的sql语句练习如果有时间看

摘要：（九）Hive的5个面试题目录一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析二、学生课程成绩 1、说明 2、需求三、求每一年最大气温的那一天 + 温度四、求学生选课情况 1、说明 2、需求 3、解析 1、数据说明 2、数据准备 3、需求 4、解析五阅读全文

posted @ 2020-10-19 17:35 十一vs十一阅读(395) 评论(0) 推荐(0)

Hive面试题整理（一） ---阿善有用

摘要： Hive面试题整理（一） 1、Hive表关联查询，如何解决数据倾斜的问题？（☆☆☆☆☆） 1）倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。（1）key分布不均匀; （2）业务阅读全文

posted @ 2020-10-19 17:34 十一vs十一阅读(664) 评论(0) 推荐(0)

Hive面试题 ---有用

摘要： 1.Hive表关联查询，如何解决数据倾斜的问题 2.谈一下hive的特点，以及hive和RDBMS有什么异同 3.说一下hive中sort by、order by、cluster by、distribute by各代表的意思 4.简要描述数据库中的 null，说出null在hive底层如何存储，并解阅读全文

posted @ 2020-10-19 17:33 十一vs十一阅读(337) 评论(0) 推荐(0)

Hive面试题考点-整理

摘要： 1)Hive数据倾斜问题：倾斜原因： map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。 1.1)key分布不均匀 1.2)业务数据本身的特性 1.3)SQL语句造成数据倾斜解决方案： 1>参数调节：阅读全文

posted @ 2020-10-19 17:31 十一vs十一阅读(202) 评论(0) 推荐(0)

Hive常见面试题整理（更新中）

摘要： 1.Hive数据倾斜问题。数据倾斜：数据倾斜主要表现在，map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多)，这条Key所在的reduce节点所处阅读全文

posted @ 2020-10-19 17:16 十一vs十一阅读(2411) 评论(0) 推荐(0)

面试题整理(Hive)1-2 ---重要 ---重复

摘要： 1. Hive数据倾斜原因 key分布不均匀业务数据本身的特性 SQL语句造成数据倾斜解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第阅读全文

posted @ 2020-10-19 17:14 十一vs十一阅读(314) 评论(0) 推荐(0)

hadoop面试真实，

摘要： 3 3 4 第一题：1.创建 hadoop 帐户。 2.setup.改 IP。 3.安装 java，并修改/etc/profile 文件，配置 java 的环境变量。 4.修改 Host 文件域名。 5.安装 SSH，配置无密钥通信。 6.解压 hadoop。 7.配置 conf 文件下 hadoo 阅读全文

posted @ 2020-10-19 16:36 十一vs十一阅读(199) 评论(0) 推荐(0)

hadoop面试真实

摘要：一、来自****提供的面试题（14** 道）：第一题：1.创建 hadoop 帐户。 2.setup.改 IP。 3.安装 java，并修改/etc/profile 文件，配置 java 的环境变量。 4.修改 Host 文件域名。 5.安装 SSH，配置无密钥通信。 6.解压 hadoop。 7 阅读全文

posted @ 2020-10-19 16:34 十一vs十一阅读(548) 评论(0) 推荐(0)

about云大数据面试宝典大公司面试一般用不到

摘要：阿里四轮面试总结第一轮面试电话（**5** 月 6 号）： 1.自我介绍，包括做过项目。 2.有看过哪些 JDK 源码，了解哪些常用库。 3.集合框架 HashMap 的扩容机制，ConcurrnetHashMap 的原理 4.jvm 内存模型与 gc 内存回收机制 5.classloader 结阅读全文

posted @ 2020-10-19 16:33 十一vs十一阅读(452) 评论(0) 推荐(0)

sqoop和mysql之间导出问题

摘要： 1.1. 导出时报错1.1.1. Could not buffer record在import的时候设置--inline-lob-limit <n> 设置内联的LOB对象的大小1.1.2. Packet for query is too large (1136885 > 1048576). You 阅读全文

posted @ 2020-10-19 16:29 十一vs十一阅读(308) 评论(0) 推荐(0)

reids3.0安装文档

摘要：安装文档 1. 安装依赖 yum -y install gcc yum -y install gcc-c++ yum -y install ruby yum -y install rubygem* yum -y install ruby-rdoc yum -y install ruby-devel 阅读全文

posted @ 2020-10-19 16:26 十一vs十一阅读(114) 评论(0) 推荐(0)

java面试

摘要： 115个Java面试题和答案——终极列表（上） 2016-04-30 小马哥 java一日一条本文我们将要讨论Java面试中的各种不同类型的面试题，它们可以让雇主测试应聘者的Java和通用的面向对象编程的能力。下面的章节分为上下两篇，第一篇将要讨论面向对象编程和它的特点，关于Java和它的功能的常阅读全文

posted @ 2020-10-19 16:13 十一vs十一阅读(70) 评论(0) 推荐(0)

java面试2

摘要： 1、面向对象的特征有哪些方面(1).抽象：抽象就是忽略一个主题中与当前目标无关的那些方面，以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题，而只是选择其中的一部分，暂时不用部分细节。抽象包括两个方面，一是过程抽象，二是数据抽象。(2).继承：继承是一种联结类的层次模型，并且允许和鼓励类阅读全文

posted @ 2020-10-19 16:08 十一vs十一阅读(135) 评论(0) 推荐(0)

大数据面试题 --- 一般有用速

摘要：大数据工程师面试题 1. 选择题 1.1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案 C datanode 1.2. HDfS 中的 block 默认保存几份阅读全文

posted @ 2020-10-19 16:03 十一vs十一阅读(527) 评论(0) 推荐(0)

rdd-api整理

摘要： RDD[T] Transformations rdd api 备注 persist/cache map(f: T => U) keyBy(f: T => K) 特殊的map，提key flatMap(f: T => Iterable[U]) map的一种，类似UDTF filter(f: T => 阅读全文

posted @ 2020-10-19 15:59 十一vs十一阅读(144) 评论(0) 推荐(0)

RDD弹性分布式数据集特性总结

摘要： RDD弹性分布式数据集集合分布式的 1、最重要的特性：分区RDD究竟是如何分区？从外部加载数据时，比如HDFS，分区数与HDFS的block数一致从内部的单机List中加载数据为RDD，parallelize(numpartition)从mysql等非内置支持的数据源加载数据，分区就取决于自定义阅读全文

posted @ 2020-10-19 15:56 十一vs十一阅读(191) 评论(0) 推荐(0)

spark-on-yarn配置参数

摘要：本文主要了解Spark On YARN部署模式下的内存分配情况，因为没有深入研究Spark的源代码，所以只能根据日志去看相关的源代码，从而了解“为什么会这样，为什么会那样”。说明按照Spark应用程序中的driver分布方式不同，Spark on YARN有两种模式： yarn-client模式阅读全文

posted @ 2020-10-19 15:54 十一vs十一阅读(569) 评论(0) 推荐(0)

资源调度

摘要：资源调度程序一旦创建sparkcontext，就会创建DAGScheduler、TaskScheduler、SparkDeploySchedulerBackendSparkDeploySchedulerBackend一启动就会创建一个子actor：AppClientAppClient一启动，就会将阅读全文

posted @ 2020-10-19 15:51 十一vs十一阅读(171) 评论(0) 推荐(0)

scala中的Option[T]

摘要： Option[T] 详解前言 Java 里的 Null Pointer Exception写过一阵子的Java后, 应该会对NullPointerException (NPE)这种东西很熟悉，基本上会碰到这种异常，就是你有一个变量是 null，但你却调用了它的方法，或是取某个的值。举例而言，下面的阅读全文

posted @ 2020-10-19 15:50 十一vs十一阅读(141) 评论(0) 推荐(0)

关于spark配置参数

摘要： Spark配置参数说明 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置，例如IP地址、端口等信息日志配置：可以通过log4j.propert 阅读全文

posted @ 2020-10-19 15:38 十一vs十一阅读(335) 评论(0) 推荐(0)

01_python_(python语言_数据类型详解)

摘要： python数据类型详解内容大纲 1、字符串 2、布尔类型 3、整数 4、浮点数 5、数字 6、列表 7、元组 8、字典 9、日期 1、字符串 1.1、如何在Python中使用字符串 a、使用单引号(') 用单引号括起来表示字符串，例如： str='this is string'; print s 阅读全文

posted @ 2020-10-19 15:36 十一vs十一阅读(121) 评论(0) 推荐(0)

游戏运营 ---没用

摘要：游戏运营分析项目 1. 课程目标 1.1. 熟练使用Spark解决实现生产问题 1.2. 熟悉游戏领域大数据分析相关概念 1.3. 掌握游戏领域大数据分析的步骤和方法 2. 项目背景 2.1. 概述目前大数据已经在各个领域得到广泛应用，在游戏领域玩家的各种行为会产生大量的数据，这些数据可以帮助游戏阅读全文

posted @ 2020-10-19 15:00 十一vs十一阅读(122) 评论(0) 推荐(0)

01_Redis3集群安装 ---没用

摘要： Redis3集群安装 1. 什么是Redis Redis是目前一个非常优秀的key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set有序集合)和hash（哈希类型）。 2. 阅读全文

posted @ 2020-10-19 14:59 十一vs十一阅读(78) 评论(0) 推荐(0)

Lucene课程

摘要： 1. 全文检索基础 1.1. 我们身边的搜索功能 Windows系统中的有搜索功能：打开“我的电脑”，按“F3”就可以使用查找的功能，查找指定的文件或文件夹。搜索的范围是整个电脑中的文件资源。 Eclipse中的帮助子系统：点击HelpàHelp Contents，可以查找出相关的帮助信息。搜索的范阅读全文

posted @ 2020-10-19 14:52 十一vs十一阅读(142) 评论(0) 推荐(0)

Kafka安装

摘要： 1.安装zk集群 2.config/server.properties添加zk地址:zookeeper.connect=node-1:2181,node-2:2181,node-3:2181修改broker.id(唯一的)：broker.id=0 3.启动/bin/kafka-server-star 阅读全文

posted @ 2020-10-19 14:37 十一vs十一阅读(68) 评论(0) 推荐(0)

Spark Streaming ---没用

摘要： Spark Streaming 1. 课程目标 1.1. 掌握Spark Streaming的原理 1.2. 熟练使用Spark Streaming完成流式计算任务 2. Spark Streaming介绍 2.1. Spark Streaming概述 2.1.1. 什么是Spark Streami 阅读全文

posted @ 2020-10-19 11:56 十一vs十一阅读(88) 评论(0) 推荐(0)

spark-streaming笔记 ---没用

摘要： 1.从TCP端口中读取数据yum install ncnc -lk 9000#注意：要指定并行度，如在本地运行设置setMaster("local[2]")，相当于启动两个线程，一个给receiver，一个给computer。#如果是在集群中运行，必须要求集群中可用core数大于1 #提交spark 阅读全文

posted @ 2020-10-19 11:53 十一vs十一阅读(90) 评论(0) 推荐(0)

zookeeper笔记 ---没用

摘要： 1.上传zk安装包 2.解压 3.配置（先在一台节点上配置） 3.1添加一个zoo.cfg配置文件 $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg 3.2修改配置文件（zoo.cfg） dataDir=/itcast/zookeeper-3.4.5/data se 阅读全文

posted @ 2020-10-19 11:52 十一vs十一阅读(67) 评论(0) 推荐(0)

远程调试笔记 ---没用

摘要： setJars start-all.sh -> start-master.sh -> start-slaves.sh //Master启动的脚本start-master.sh -> spark-daemon.sh start org.apache.spark.deploy.master.Master 阅读全文

posted @ 2020-10-19 11:16 十一vs十一阅读(100) 评论(0) 推荐(0)

Spark 基础安装及配置 ---没用

摘要： Spark入门 1. 课程目标 2 1.1. 目标1：熟悉Spark相关概念 2 1.2. 目标2：搭建Spark集群 2 1.3. 目标3：编写简单的Spark应用程序 2 2. Spark概述 2 2.1. 什么是Spark（官网：http://spark.apache.org） 2 2.2. 阅读全文

posted @ 2020-10-19 11:10 十一vs十一阅读(194) 评论(0) 推荐(0)

Spark RDD ---有用

摘要： Spark计算模型 1. 课程目标 1.1. 熟练使用RDD的算子完成计算 1.2. 掌握RDD的原理 2. 弹性分布式数据集RDD 2.1. RDD概述 2.1.1. 什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象阅读全文

posted @ 2020-10-19 11:08 十一vs十一阅读(109) 评论(0) 推荐(0)

Spark Streaming ---没用

posted @ 2020-10-19 10:08 十一vs十一阅读(116) 评论(0) 推荐(0)

Spark SQL ---一般有用

摘要： Spark SQL and DataFrame 1. 课程目标 1.1. 掌握Spark SQL的原理 1.2. 掌握DataFrame数据结构和使用方式 1.3. 熟练使用Spark SQL完成计算任务 2. Spark SQL 2.1. Spark SQL概述 2.1.1. 什么是Spark S 阅读全文

posted @ 2020-10-19 10:03 十一vs十一阅读(145) 评论(0) 推荐(0)

idea快捷键

摘要： IntelliJ Idea 常用快捷键列表 Ctrl+Alt+t 选择代码块 try catch Alt+回车导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set 阅读全文

posted @ 2020-10-19 09:32 十一vs十一阅读(106) 评论(0) 推荐(0)

04.Scala编程实战 ---没看

摘要： Scala编程实战 1. 课程目标 1.1. 目标：熟练使用Scala编写程序 2. 项目概述 2.1. 需求目前大多数的分布式架构底层通信都是通过RPC实现的，RPC框架非常多，比如前我们学过的Hadoop项目的RPC通信框架，但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的，在某阅读全文

posted @ 2020-10-19 09:30 十一vs十一阅读(99) 评论(0) 推荐(0)

03.Scala高级特性 ---没看

摘要： Scala高级特性 1. 课程目标 1.1. 目标一：深入理解高阶函数 1.2. 目标一：深入理解隐式转换 2. 高阶函数 2.1. 概念 Scala混合了面向对象和函数式的特性，我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中，函数是“头等公民”，高阶函数包含：作为值的函数、阅读全文

posted @ 2020-10-19 09:29 十一vs十一阅读(101) 评论(0) 推荐(0)

02.Actor编程 ---没看

摘要： Scala Actor 1. 课程目标 1.1. 目标一：熟悉Scala Actor并发编程 1.2. 目标二：为学习Akka做准备注：我们现在学的Scala Actor是scala 2.10.x版本及以前版本的Actor。 Scala在2.11.x版本中将Akka加入其中，作为其默认的Actor 阅读全文

posted @ 2020-10-19 09:27 十一vs十一阅读(117) 评论(0) 推荐(0)

01.Scala编程基础 ---没看

摘要： Scala编程 1. 课程目标 2 1.1. 目标1：（初级）熟练使用scala编写Spark程序 2 1.2. 目标2：（中级）动手编写一个简易Spark通信框架 3 1.3. 目标3：（高级）为阅读Spark内核源码做准备 4 2. Scala概述 4 2.1. 什么是Scala 4 2.2. 阅读全文

posted @ 2020-10-19 09:25 十一vs十一阅读(201) 评论(0) 推荐(0)

附6、Storm面试题目答疑 ---一般有用

摘要：问题： 1，kafka+storm如何保证消息完整处理。一条消息产生 Kafka--KafkaSpout-Storm >Redis 问题1：kafka数据生产消费如何保证消息的完整处理 Producer-batch(缓存机制queue)--重试机制 >ack(-1,1,0) Broker(part 阅读全文

posted @ 2020-10-19 09:21 十一vs十一阅读(111) 评论(0) 推荐(0)

附3、Storm课程学习整体思路及问题 ---没用

摘要：问题：1、集群如何启动，任务如何执行？java -server nimubs，supervisorclient >createTopology(序列化) >提交jar到nimbuinbox >nimbus分配任务(task总数/worker数) 写到zk。启动worker< 识别自己的任务< sup 阅读全文

posted @ 2020-10-19 09:20 十一vs十一阅读(79) 评论(0) 推荐(0)

7、kafka知识总结

摘要： 1、kafka是什么类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。数据的分发策略由producer决定，默认是阅读全文

posted @ 2020-10-19 09:17 十一vs十一阅读(101) 评论(0) 推荐(0)

4、Storm启动流程分析 ---没用

摘要： Storm启动流程分析程序员client 1、客户端运行storm nimbus时，会调用storm的python脚本，该脚本中为每个命令编写一个方法，每个方法都可以生成一条相应的java命令。命令格式如下：java -server xxxx.ClassName -args nimbus > R 阅读全文

posted @ 2020-10-19 09:16 十一vs十一阅读(133) 评论(0) 推荐(0)

2、Storm架构和编程模型总结 ---重要

摘要： 1、编程模型 DataSource：外部数据源 Spout：接受外部数据源的组件，将外部数据源转化成Storm内部的数据，以Tuple为基本的传输单元下发给Bolt Bolt:接受Spout发送的数据，或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介阅读全文

posted @ 2020-10-19 09:15 十一vs十一阅读(100) 评论(0) 推荐(0)

公告