面试随笔

面试清单

1.开场

1）简单自我介绍

2）课程、自学内容介绍

2.技术问

0）简历问题浏览

1）对大数据的了解、对数据仓库的了解

Java:

面向对象3个特征

1.==和equals的区别

== 对于基本类型来说是值比较，对于引用类型来说是比较的是引用；而 equals 默认情况下是引用比较，只是很多类重新了 equals 方法，比如 String、Integer 等把它变成了值比较，所以一般情况下 equals 比较的是值是否相等。

抽象类是什么？它与接口有什么区别？

抽象类是指不允许被实例化的类；一个类只能使用一次继承关系。但是，一个类却可以实现多个interface。

abstract class和interface所反映出的设计理念不同。其实abstract class表示的是"is-a"关系，interface表示的是"like-a"关系

实现抽象类和接口的类必须实现其中的所有方法。抽象类中可以有非抽象方法。接口中则不能有实现方法。但在Java8中允许接口中有静态默认的方法。

接口中定义的变量默认是public static final 型，且必须给其初值，所以实现类中不能重新定义，也不能改变其值。抽象类中的变量默认是 friendly 型，其值可以在子类中重新定义，也可以重新赋值。

子类中实现父类中的抽象方法时，可见性可以大于等于父类中的；而接口实现类中的接口方法的可见性只能与接口中相同（public）。

用抽象类是为了重用。减少编码量，降低耦合性。

如何对集合进行去重，如何进行排序？

使用set()构造，使用重载的Collections.sort(List,Comparator)方法

1.Python如何实现集合去重？

2.如何反转一个字符串（abc）

a[::-1]；''.join(reversed('123456789'))

3.python实践：统计一个文本中单词频次最高的10个单词？

PYTHON编程实践

统计一个文本中单词频次最高的10个单词？

import re

class Solution():

    def MaxWord(self,file_name):

        """

        :param file_name: 文件名

        :return:

        """

        with open(file_name,'r') as file:

            for lines in file:

                lines=re.sub('\W+',' ',lines)

            print(lines)

            dict_word={}

            for i in range(0,len(lines.split(' '))):

                word=lines.split(' ')[i]

                if word not in dict_word:

                    dict_word[word]=1

                else:

                    dict_word[word]+=1

            word_sorted=sorted(dict_word.items(),key=lambda x:x[1],reverse=True)

            for i in range(0,10):

                print(word_sorted[i])

 

if __name__=='__main__':

    solution=Solution()

    file_name='E:\python_test\exercise0406\information.txt'

    solution.MaxWord(file_name)

大数据与SQL

MR基本过程，Combiner位置和作用

几种JOIN区别

Hive内部表外部表区别

一、使用过哪些数据库？（oracle，mysql，sqlserver等），那他们的SQL语句执行顺序是什么？

(1) from (2) on (3) join (4) where (5)group by(6) avg,sum....

(7)having (8) select (9) distinct (10) order by(11) limit

完整4道SQL面试题：http://www.itongji.cn/detail?type=99993193

现有如下学生成绩表st_score:学号，姓名，性别，成绩，课程（语文，数学，英语）

输出：学号，姓名，性别，语文成绩，数学成绩，英语成绩总共6列，每个学生一条记录，成绩出现重复时选最高成绩，按学号升序

参考代码

select st_id,

name,

gender,

max(case when lesson = 'math' then score else 0 end) as mt_score,

max(case when lesson = 'Chinese' then score else 0 end) as chi_score,

max(case when lesson = 'English' then score else 0 end) as eng_score

from st_score

group by st_id,name,gender

order by st_id;

解析

case when语句是本题的核心，也是行转列这类题目的核心部分，题目要求①要求一个st_id仅存在一条数据，所以这里还需要配合聚合函数使用，用case when语句作为子查询，主查询再进行合并也是可以的，只是会多一个步骤。

要求②中已经明确要求“成绩出现重复时选“最高成绩”，所以表中是有可能出现重复值的，这里只能使用max()函数，如果这里已经明确说明不会出现重复值，就可以用sum()、max()、min()这样的聚合函数。

2.现已将上表查询的结果保存为新表new_score，根据new_score表查询出满足以下条件的结果：学号，姓名，语文成绩，数学成绩，映月成绩，总分6个字段

①语数英三门课程的成绩都排在前五（包含第五）；

结果按照总成绩从高到低排列

参考代码

select st_id,

name,

mt_score,

chi_score,

eng_score,

total_score

from (

select st_id,

name,

mt_score,

dense_rank() over(order by mt_score DESC) as rn_math,

chi_score,

dense_rank() over(order by chi_score DESC) as rn_chi,

eng_score,

dense_rank() over(order by eng_score DESC) as rn_eng,

mt_score + chi_score + eng_score as total_score

from new_score

) t

where rn_math <= 5 and rn_chi <= 5 and rn_eng <=5

order by total_score desc;

解析

本题考察的是窗口函数中row_number、rank、dense_rank的分辨和使用，根据本题要求②，这里需要使用dense_rank函数，并且顺序要从高到低排列，还需要用到order by desc；

有的可能会使用order by配合limit来解决排名问题，然后再进行表关联选择同时满足条件的数据，都没有问题，但是逻辑上会更复杂一些，计算过程也会更多一些。

二、（1）数仓方面---数据集成使用的是什么工具?

（2）如何实现增量，全量，实时抽取数据?

（3）如果是flume实时抽取，请问数据源（source）是什么？

（4）kafka连接sparkstreaming的方式？

（5）如何保证sparkstreaming是不重复，不丢失的消费kafka的数据？

（1）答：可能是封装的工具datax或者databirdge，也可能是flume，kettle等开源工具

（2）答：增量说到binglog日志读取，通过日期字段等方式即可，全量讲到sqoop即可，实时用fulme获取日网页埋点数据即可

（3）答：Source讲到log4j或者 nginx日志就可以

（4）答：Receiver模式或者Direct模式

（5）答：Kafka说到redis存储或者mysql存储即可

三、做过哪些数据清洗，具体有什么规范吗？

答：1.码表转换 2.字符串处理（如去空格，全角转半角）3.规范格式（如日期，身份证等）4.空白值填充（或者删除）5.错误值修正等

posted @ 2021-03-29 15:26 ---江北阅读(191) 评论(0) 收藏举报

刷新页面返回顶部

---江北

冰冻三尺，非一日之寒

面试随笔

1.开场

2.技术问

Java:

大数据与SQL

公告