2021年2月28日
摘要:
对于网络爬虫来说header是很重要的一环,因为有些网站只认可浏览器发送的访问请求。 网上的例子多是Chrome的,Firefox的较少。 第一步: 使用百度打开一个网页 第二步: 按F12进入开发者模式 第三步: 选择网络 第四步: 点击一项进去 右下角可以看到User-Agent 有这个就可以进
阅读全文
posted @ 2021-02-28 10:45
桌子哥
阅读(688)
推荐(0)
2021年2月14日
摘要:
数仓架构分五层,第一层是数据源,又称上游系统,银行为例,数据源由核心系统、ECIF、贷款系统、存款系统、中间业务总账系统、财务系统 等等。 第二层,贴源层,又称标准化层(ODS),这里需要清洗脏数据(用正则表达式、条件过滤),规范命名,数据类型和格式作标准化处理,添加时间戳字段。 源到贴源层用ETL
阅读全文
posted @ 2021-02-14 21:43
桌子哥
阅读(1025)
推荐(0)
2020年12月1日
摘要:
Leetcode在shell编程部分只有4道题。 第1题:第十行 难度:简单 题目: 给定一个文本文件 file.txt,请只打印这个文件中的第十行。示例:假设 file.txt 有如下内容:Line 1Line 2Line 3Line 4Line 5Line 6Line 7Line 8Line 9
阅读全文
posted @ 2020-12-01 16:25
桌子哥
阅读(280)
推荐(0)
2020年11月27日
摘要:
最近因为工作原因开始接触Linux,需要做一些简单的Shell开发。 在牛客网练习了一下,来记录自己的学习过程。 第1题:统计文件的行数 题目: 写一个 bash脚本以输出一个文本文件 nowcoder.txt中的行数 示例: 假设 nowcoder.txt 内容如下: 复制代码 1 2 3 4 5
阅读全文
posted @ 2020-11-27 21:50
桌子哥
阅读(609)
推荐(0)
2020年11月24日
摘要:
之前学习整理过一些Hive调优的方法,最近在学习参考书的时候看到作者提供了一个Hive调优的解决方案,在这里分享下。 案例所使用的数据来源于美国航班数据、机场数据和天气数据。用来查询要查找航班延误(时间超过15分钟)次数最多的5个机场,其出发机场的风速都超过1米/秒。 第一个调优方向:执行引擎 Hi
阅读全文
posted @ 2020-11-24 21:47
桌子哥
阅读(813)
推荐(0)
2020年11月14日
摘要:
写在前面: 最近的工作涉及到SQL比较多,前一段时间做了牛客的SQL练习题,从今天开始来做一下LeetCode上的SQL练习题。为自己之后的理想职业数据分析师来做一些基础的提高。 题目1:难度:简单 表1: Person+ + +| 列名 | 类型 |+ + +| PersonId | int ||
阅读全文
posted @ 2020-11-14 22:42
桌子哥
阅读(529)
推荐(1)
2020年11月4日
摘要:
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化,也包含Hive配置项和MR方面的调整。 列裁剪和分区
阅读全文
posted @ 2020-11-04 23:15
桌子哥
阅读(5555)
推荐(0)
2020年11月1日
摘要:
因为最近的工作需要写一些SQL,但是之前只学过,没有实地的编过SQL。 在工作中是需要用Hive来写,本地没有环境,所以在牛客网上来进行练习。 本次内容全部来源于牛客网,使用的是SQLite。 第1题: 题目: 查找最晚入职员工的所有信息,为了减轻入门难度,目前所有的数据里员工入职的日期都不是同一天
阅读全文
posted @ 2020-11-01 22:23
桌子哥
阅读(443)
推荐(0)
摘要:
题目: 将employees表中的所有员工的last_name和first_name通过(')连接起来。(不支持concat,请用||实现) CREATE TABLE `employees` ( `emp_no` int(11) NOT NULL, `birth_date` date NOT NUL
阅读全文
posted @ 2020-11-01 17:29
桌子哥
阅读(357)
推荐(0)
摘要:
题目: 牛客每次考试完,都会有一个成绩表(grade),如下: 第1行表示用户id为1的用户选择了C++岗位并且考了11001分 。。。 第8行表示用户id为8的用户选择了前端岗位并且考了9999分 请你写一个sql语句查询各个岗位分数升序排列之后的中位数位置的范围,并且按job升序排序,结果如下:
阅读全文
posted @ 2020-11-01 17:20
桌子哥
阅读(961)
推荐(0)