面试随笔

 面试清单

1.开场

1)简单自我介绍

2)课程、自学内容介绍

2.技术问

0)简历问题浏览

1)对大数据的了解、对数据仓库的了解

Java:

面向对象3个特征

1.==equals的区别

== 对于基本类型来说是值比较,对于引用类型来说是比较的是引用;而 equals 默认情况下是引用比较,只是很多类重新了 equals 方法,比如 StringInteger 等把它变成了值比较,所以一般情况下 equals 比较的是值是否相等。

  1. 抽象类是什么?它与接口有什么区别?

抽象类是指不允许被实例化的类;一个类只能使用一次继承关系。但是,一个类却可以实现多个interface

abstract classinterface所反映出的设计理念不同。其实abstract class表示的是"is-a"关系,interface表示的是"like-a"关系

实现抽象类和接口的类必须实现其中的所有方法。抽象类中可以有非抽象方法。接口中则不能有实现方法。但在Java8中允许接口中有静态默认的方法。

接口中定义的变量默认是public static final 型,且必须给其初值,所以实现类中不能重新定义,也不能改变其值。抽象类中的变量默认是 friendly 型,其值可以在子类中重新定义,也可以重新赋值。

子类中实现父类中的抽象方法时,可见性可以大于等于父类中的;而接口实现类中的接口 方法的可见性只能与接口中相同(public)。

用抽象类是为了重用。减少编码量,降低耦合性。

  1. 如何对集合进行去重,如何进行排序?

使用set()构造,使用重载的Collections.sort(List,Comparator)方法

1.Python如何实现集合去重?

2.如何反转一个字符串(abc

a[::-1]''.join(reversed('123456789'))

3.python实践:统计一个文本中单词频次最高的10个单词?

PYTHON编程实践

统计一个文本中单词频次最高的10个单词?

import re

class Solution():

    def MaxWord(self,file_name):

        """

        :param file_name: 文件名

        :return:

        """

        with open(file_name,'r') as file:

            for lines in file:

                lines=re.sub('\W+',' ',lines)

            print(lines)

            dict_word={}

            for i in range(0,len(lines.split(' '))):

                word=lines.split(' ')[i]

                if word not in dict_word:

                    dict_word[word]=1

                else:

                    dict_word[word]+=1

            word_sorted=sorted(dict_word.items(),key=lambda x:x[1],reverse=True)

            for i in range(0,10):

                print(word_sorted[i])

 

if __name__=='__main__':

    solution=Solution()

    file_name='E:\python_test\exercise0406\information.txt'

    solution.MaxWord(file_name)

 

大数据与SQL

MR基本过程,Combiner位置和作用

几种JOIN区别

Hive内部表外部表区别

一、使用过哪些数据库?(oracle,mysql,sqlserver等),那他们的SQL语句执行顺序是什么?

(1) from (2) on (3) join (4) where (5)group by(6) avg,sum.... 

(7)having (8) select (9) distinct (10) order by(11) limit 

 

完整4道SQL面试题http://www.itongji.cn/detail?type=99993193

  1. 现有如下学生成绩表st_score:学号,姓名,性别,成绩,课程(语文,数学,英语)

输出:学号,姓名,性别,语文成绩,数学成绩,英语成绩总共6列,每个学生一条记录,成绩出现重复时选最高成绩,按学号升序

参考代码

 

select st_id,

name,

gender,

max(case when lesson = 'math' then score else 0 end) as mt_score,

max(case when lesson = 'Chinese' then score else 0 end) as chi_score,

max(case when lesson = 'English' then score else 0 end) as eng_score

from st_score

group by st_id,name,gender

order by st_id;

 

解析

case when语句是本题的核心,也是行转列这类题目的核心部分,题目要求①要求一个st_id仅存在一条数据,所以这里还需要配合聚合函数使用,用case when语句作为子查询,主查询再进行合并也是可以的,只是会多一个步骤。

 

要求②中已经明确要求“成绩出现重复时选“最高成绩”,所以表中是有可能出现重复值的,这里只能使用max()函数,如果这里已经明确说明不会出现重复值,就可以用sum()、max()、min()这样的聚合函数。

 

2.现已将上表查询的结果保存为新表new_score,根据new_score表查询出满足以下条件的结果:学号,姓名,语文成绩,数学成绩,映月成绩,总分6个字段

①语数英三门课程的成绩都排在前五(包含第五);

结果按照总成绩从高到低排列

参考代码

select st_id,

name,

mt_score,

chi_score,

eng_score,

total_score

from (

select st_id,

name,

mt_score,

dense_rank() over(order by mt_score DESC) as rn_math,

chi_score,

dense_rank() over(order by chi_score DESC) as rn_chi,

eng_score,

dense_rank() over(order by eng_score DESC) as rn_eng,

mt_score + chi_score + eng_score as total_score

from new_score

) t

where rn_math <= 5 and rn_chi <= 5 and rn_eng <=5

order by total_score desc;

 

解析

本题考察的是窗口函数中row_number、rank、dense_rank的分辨和使用,根据本题要求②,这里需要使用dense_rank函数,并且顺序要从高到低排列,还需要用到order by desc;

 

有的可能会使用order by配合limit来解决排名问题,然后再进行表关联选择同时满足条件的数据,都没有问题,但是逻辑上会更复杂一些,计算过程也会更多一些。

 

二、1)数仓方面---数据集成使用的是什么工具?

(2)如何实现增量,全量,实时抽取数据?

(3)如果是flume实时抽取,请问数据源(source)是什么?

(4)kafka连接sparkstreaming的方式?

(5)如何保证sparkstreaming是不重复,不丢失的消费kafka的数据?

 

(1)答:可能是封装的工具datax或者databirdge,也可能是flumekettle等开源工具

(2)答:增量说到binglog日志读取,通过日期字段等方式即可,全量讲到sqoop即可,实时用fulme获取日网页埋点数据即可

3)答:Source讲到log4j或者 nginx日志就可以

4)答:Receiver模式或者Direct模式

5)答:Kafka说到redis存储或者mysql存储即可

 

三、做过哪些数据清洗,具体有什么规范吗?

答:1.码表转换 2.字符串处理(如去空格,全角转半角)3.规范格式(如日期,身份证等)4.空白值填充(或者删除)5.错误值修正等

posted @ 2021-03-29 15:26  ---江北  阅读(162)  评论(0编辑  收藏  举报
TOP