12 2020 档案

摘要:转自:https://blog.csdn.net/lxpbs8851/article/details/17118841 情况: 表: test_table 已有字段 (a,b,c) 已有分区: day_key=20131201 day_key=20131202 day_key=20131203 需求 阅读全文
posted @ 2020-12-31 20:23 foolangirl 阅读(1180) 评论(0) 推荐(0)
摘要:转自:https://blog.csdn.net/cuichunchi/article/details/109999526 需要使用hive的正则表达式,需要设置hive的参数,在这种配置中,反引号名成被解释为正则表达式: set hive.support.quoted.identifiers=no 阅读全文
posted @ 2020-12-30 20:04 foolangirl 阅读(1632) 评论(0) 推荐(0)
摘要:原理 参考:https://blog.csdn.net/u013668852/article/details/79866931 group by多字段 select rank, isonline, count(*) from city group by rank, isonline; 将GroupB 阅读全文
posted @ 2020-12-29 23:59 foolangirl 阅读(875) 评论(0) 推荐(0)
摘要:宏命令 宏命令是在HQL中调用其他函数和操作符来定义函数的功能。比较适合做分析时为一些临时需要用到很多次的繁琐表达式封装一下,取个简短点的别名以便重复调用例子 例子 -- 宏只能是临时宏,只在本次回话中可见、有效,需要将宏脚本放在SQL脚本的头部 -- 一个根据生日推算星座的宏命令 DROP TEM 阅读全文
posted @ 2020-12-28 20:10 foolangirl 阅读(256) 评论(0) 推荐(0)
摘要:场景 有两张表,一张活动清单表actv_evt:记录了所有的活动,包括活动id,活动名称及活动相关配置信息;一张客户活动参与表cust_actv,记录了客户参与活动信息。 cust_actv中参与了活动的客户定义为活跃客户,现在公司想对活跃客户做推广,将没参与过的活动推送给他们 举例:共有actv1 阅读全文
posted @ 2020-12-27 19:58 foolangirl 阅读(1503) 评论(0) 推荐(0)
摘要:建表场景 create test_json( id int ,student string ) row format delimited fields terminated by ' '; -- 假数据: 1 {"name":"zhangsan","age":17,"sex":"F"} --这里一定 阅读全文
posted @ 2020-12-26 21:58 foolangirl 阅读(278) 评论(0) 推荐(0)
摘要:带集合类型建表 Hive上创建测试表test create table test( name string, friends array<string>, children map<string, int>, address struct<street:string, city:string> ) 阅读全文
posted @ 2020-12-26 19:43 foolangirl 阅读(906) 评论(0) 推荐(0)
摘要:统计文件行数 # 统计文件行数 cat nowcoder.txt | wc -l 打印文件最后5行 tail -n -5 nowcoder.txt #以下一样,展示文件最后5行: tail -n 5 nowcoder.txt tail -n5 nowcoder.txt tail -5 nowcode 阅读全文
posted @ 2020-12-26 18:42 foolangirl 阅读(180) 评论(0) 推荐(0)
摘要:题目描述 请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。 知识点回顾 字符串 代码 一、利用字符串拼接逐个替换 # -*- coding:utf-8 -*- class Solution: 阅读全文
posted @ 2020-12-25 20:53 foolangirl 阅读(76) 评论(0) 推荐(0)
摘要:题目描述 给你一根长度为n的绳子,请把绳子剪成整数长的m段(m、n都是整数,n>1并且m>1,m<=n),每段绳子的长度记为k[1],...,k[m]。请问k[1]x...xk[m]可能的最大乘积是多少?例如,当绳子的长度是8时,我们把它剪成长度分别为2、3、3的三段,此时得到的最大乘积是18。 输 阅读全文
posted @ 2020-12-24 19:01 foolangirl 阅读(82) 评论(0) 推荐(0)
摘要:简介 Scrapy是爬取网站,提取结构性数据并存储的应用框架。对爬取过程中的请求、返回、解析、存储、调度等流程提供模块化支持。 items模块——定义需要爬取的数据字段 保存爬取到的数据的容器,python的字典类型。根据网站数据对item进行定义字段。 # items示例 import scrap 阅读全文
posted @ 2020-12-23 21:42 foolangirl 阅读(124) 评论(0) 推荐(0)
摘要:为什么要分析网站结构 在爬虫系统中,待抓取URL队列及队列中URL的排列顺序非常重要。这关系到能否遍历所有的目标页面,关系到抓取页面的先后问题。 树状结构 网站内容以树状结构组织,以一级、二级分类等一层层组织。 以豆瓣电影为例:https://www.douban.com/ 1)一级 首先要从电影分 阅读全文
posted @ 2020-12-21 20:46 foolangirl 阅读(446) 评论(0) 推荐(0)
摘要:urlretrieve方法 通过上节爬虫2,可以将结构化数据存入mysql等数据库,但脚本中还存在非结构化数据: # print(content.xpath('//*[@dd_name="大图"]/img/@src').pop()) # 图片 python的urlretrieve方法可实现将远程数据 阅读全文
posted @ 2020-12-20 19:58 foolangirl 阅读(411) 评论(0) 推荐(0)
摘要:题目描述 如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当前读取数据的中位数。 知识点 阅读全文
posted @ 2020-12-20 16:40 foolangirl 阅读(75) 评论(0) 推荐(0)
摘要:也可以存入hive、HDFS,这里选择存在mysql。 一、安装mysql(python在pyspark一节已配置好) https://blog.csdn.net/zhouzezhou/article/details/52446608 安装后找不到bin目录解决方法 https://blog.csd 阅读全文
posted @ 2020-12-19 20:20 foolangirl 阅读(423) 评论(0) 推荐(0)
摘要:1.场景 生成太多Map时,计算任务会耗费很多时间在Map的启动上,这时候需要对Map数进行控制。 2.原理 单独配置参数:set mapred.map.tasks=tasknum时,可能无法真正的起到调节效果,原因如下: 1)默认情况Map个数defaultNum=目标数据文件总大小totalSi 阅读全文
posted @ 2020-12-19 17:45 foolangirl 阅读(659) 评论(0) 推荐(0)
摘要:题目描述 从上到下按层打印二叉树,同一层结点从左至右输出。每一层输出一行。 示例 输入 {8,6,10,5,7,9,11} 返回值 [[8],[6,10],[5,7,9,11]] 知识点回顾: 树、BFS 代码 解法一:暴力循环 用两个列表分别保存当前层节点和下一层节点;循环添加当前层节点的左右子节 阅读全文
posted @ 2020-12-17 23:37 foolangirl 阅读(59) 评论(0) 推荐(0)
摘要:数据需求说明: table1的数据是 客户id,基金差额,保险差额,理财差额,。。。 create table youhua1( -> custid int -> ,jijin_change float -> ,baoxian_change float -> ,cunkuan_change floa 阅读全文
posted @ 2020-12-16 23:51 foolangirl 阅读(899) 评论(0) 推荐(0)
摘要:场景: 有一批平行的数据库db1, db2, db3, ...,每个库有同样命名的一批视图tb1; tb2; ...,这些视图展示的是最新跑批结果的数据,基于这些视图下游有一些应用。 现:要将这批视图转成分区物理表,再基于该分区物理表的最新跑批结果,即最新分区做下游应用。 要求是:每张表切换新跑批脚 阅读全文
posted @ 2020-12-15 23:16 foolangirl 阅读(244) 评论(0) 推荐(0)
摘要:相关知识点 shell的循环;shell连接hive-hive语句执行、hive文件执行;传参;输入输出文件,文件删除 shell中list的循环: for line in ${list[@]} #这里不能只写${list},执行结果不对,回头测试一下 do 执行语句 done shell中的判断: 阅读全文
posted @ 2020-12-14 20:17 foolangirl 阅读(2656) 评论(0) 推荐(0)
摘要:爬虫 1.获取HTML网页信息 import requests url = 'http://product.dangdang.com/29148702.html' headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Appl 阅读全文
posted @ 2020-12-13 19:27 foolangirl 阅读(337) 评论(0) 推荐(0)
摘要:题目描述 给定一个二叉树和其中的一个结点,请找出中序遍历顺序的下一个结点并且返回。注意,树中的结点不仅包含左右子结点,同时包含指向父结点的指针。 知识点回顾 树 代码 解法一:暴力循环 根据给出的结点求出整棵树的根节点 根据根节点递归求出树的中序遍历,存入vector 在vector中查找当前结点, 阅读全文
posted @ 2020-12-13 12:16 foolangirl 阅读(117) 评论(0) 推荐(0)
摘要:题目描述 给一个链表,若其中包含环,请找出该链表的环的入口结点,否则,输出null。 代码 解法一:暴力循环 遍历单链表的每个结点 如果当前结点地址没有出现在set中,则存入set中 否则,出现在set中,则当前结点就是环的入口结点 整个单链表遍历完,若没出现在set中,则不存在环 # -*- co 阅读全文
posted @ 2020-12-12 16:39 foolangirl 阅读(104) 评论(0) 推荐(0)
摘要:参考帖子操作解决: 安装jupyter参考: https://blog.csdn.net/lanyuelvyun/article/details/93499423 运行pyspark参考: https://www.cnblogs.com/chenxiangzhen/p/10706258.html j 阅读全文
posted @ 2020-12-11 21:50 foolangirl 阅读(317) 评论(0) 推荐(0)
摘要:题目描述 请实现一个函数用来找出字符流中第一个只出现一次的字符。例如,当从字符流中只读出前两个字符"go"时,第一个只出现一次的字符是"g"。当从该字符流中读出前六个字符“google"时,第一个只出现一次的字符是"l"。 返回值描述: 如果当前字符流没有存在出现一次的字符,返回#字符。 代码 # 阅读全文
posted @ 2020-12-11 20:23 foolangirl 阅读(98) 评论(0) 推荐(0)
摘要:解决CentOS7-python-pip安装失败 Pip介绍 pip 是一个安装和管理 Python 包的工具,python安装包的工具有easy_install, setuptools, pip,distribute。使用这些工具都能下载并安装django。,而pip是easy_install的替 阅读全文
posted @ 2020-12-10 20:08 foolangirl 阅读(253) 评论(0) 推荐(0)
摘要:题目描述 请实现一个函数用来判断字符串是否表示数值(包括整数和小数)。例如,字符串"+100","5e2","-123","3.1416"和"-1E-16"都表示数值。 但是"12e","1a3.14","1.2.3","+-5"和"12e+4.3"都不是。 示例 输入 "123.45e+6" 返回 阅读全文
posted @ 2020-12-09 19:58 foolangirl 阅读(73) 评论(0) 推荐(0)
摘要:题目描述 在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中第一个重复的数字。 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是第一个重复的数字2。 返回描述: 如果数组中有 阅读全文
posted @ 2020-12-08 20:10 foolangirl 阅读(65) 评论(0) 推荐(0)
摘要:题目描述 求1+2+3+...+n,要求不能使用乘除法、for、while、if、else、switch、case等关键字及条件判断语句(A?B:C)。 示例 输入 5 返回值 15 知识点回顾 进制转化、数学 代码 # -*- coding:utf-8 -*- class Solution: de 阅读全文
posted @ 2020-12-08 19:48 foolangirl 阅读(88) 评论(0) 推荐(0)
摘要:题目描述 LL今天心情特别好,因为他去买了一副扑克牌,发现里面居然有2个大王,2个小王(一副牌原本是54张^_^)...他随机从中抽出了5张牌,想测测自己的手气,看看能不能抽到顺子,如果抽到的话,他决定去买体育彩票,嘿嘿!!“红心A,黑桃3,小王,大王,方片5”,“Oh My God!”不是顺子.. 阅读全文
posted @ 2020-12-07 20:16 foolangirl 阅读(52) 评论(0) 推荐(0)
摘要:题目描述 汇编语言中有一种移位指令叫做循环左移(ROL),现在有个简单的任务,就是用字符串模拟这个指令的运算结果。对于一个给定的字符序列S,请你把其循环左移K位后的序列输出。例如,字符序列S=”abcXYZdef”,要求输出循环左移3位后的结果,即“XYZdefabc”。是不是很简单?OK,搞定它! 阅读全文
posted @ 2020-12-07 19:34 foolangirl 阅读(56) 评论(0) 推荐(0)
摘要:题目描述 输入一个递增排序的数组和一个数字S,在数组中查找两个数,使得他们的和正好是S,如果有多对数字的和等于S,输出两个数的乘积最小的。 返回值描述: 对应每个测试案例,输出两个数,小的先输出。 示例 输入 [1,2,4,7,11,15],15 返回值 [4,11] 知识点回顾 数学、数组、双指针 阅读全文
posted @ 2020-12-06 18:42 foolangirl 阅读(94) 评论(0) 推荐(0)
摘要:题目描述 小明很喜欢数学,有一天他在做数学作业时,要求计算出9~16的和,他马上就写出了正确答案是100。但是他并不满足于此,他在想究竟有多少种连续的正数序列的和为100(至少包括两个数)。没多久,他就得到另一组连续正数和为100的序列:18,19,20,21,22。现在把问题交给你,你能不能也很快 阅读全文
posted @ 2020-12-05 17:10 foolangirl 阅读(58) 评论(0) 推荐(0)
摘要:题目描述 一个整型数组里除了两个数字之外,其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。 知识点回顾 位运算、哈希 代码 解法一:暴力解题,双重循环,O(N^2) # -*- coding:utf-8 -*- class Solution: # 返回[a,b] 其中ab是出现一次的两个 阅读全文
posted @ 2020-12-04 20:58 foolangirl 阅读(77) 评论(0) 推荐(0)
摘要:题目描述 输入一棵二叉树,判断该二叉树是否是平衡二叉树。 在这里,我们只需要考虑其平衡性,不需要考虑其是不是排序二叉树 示例 输入 {1,2,3,4,5,6,7} 返回值 true 知识点回顾 树、DFS 代码 解法一:自上而下的方法,需要借助JZ38二叉树深度 判断一个数是否为平衡二叉树。平衡二叉 阅读全文
posted @ 2020-12-04 19:51 foolangirl 阅读(105) 评论(0) 推荐(0)
摘要:题目描述 统计一个数字在升序数组中出现的次数。 示例 输入 [1,2,3,3,3,3,4,5],3 返回值 4 知识点回顾 数组、二分 代码 解法一:暴力循环 # -*- coding:utf-8 -*- class Solution: def GetNumberOfK(self, data, k) 阅读全文
posted @ 2020-12-03 21:01 foolangirl 阅读(88) 评论(0) 推荐(0)
摘要:题目描述 输入两个链表,找出它们的第一个公共结点。(注意因为传入数据是链表,所以错误测试数据的提示是用其他方式显示的,保证传入数据是正确的) 知识点回顾 链表 代码 解法一:暴力解法,双层遍历: 在第一个链表上顺序遍历每一个节点,去找第二个链表上有没有相同结点。如果第一个链表的长度为m,第二个链表的 阅读全文
posted @ 2020-12-02 20:16 foolangirl 阅读(97) 评论(0) 推荐(0)
摘要:题目描述 求出1~13的整数中1出现的次数,并算出100~1300的整数中1出现的次数?为此他特别数了一下1~13中包含1的数字有1、10、11、12、13因此共出现6次,但是对于后面问题他就没辙了。ACMer希望你们帮帮他,并把问题更加普遍化,可以很快的求出任意非负整数区间中1出现的次数(从1 到 阅读全文
posted @ 2020-12-02 19:44 foolangirl 阅读(69) 评论(0) 推荐(0)