会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
x_lulu
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
10
下一页
2020年12月28日
Hive学习小记-(2)宏命令
摘要: 宏命令 宏命令是在HQL中调用其他函数和操作符来定义函数的功能。比较适合做分析时为一些临时需要用到很多次的繁琐表达式封装一下,取个简短点的别名以便重复调用例子 例子 -- 宏只能是临时宏,只在本次回话中可见、有效,需要将宏脚本放在SQL脚本的头部 -- 一个根据生日推算星座的宏命令 DROP TEM
阅读全文
posted @ 2020-12-28 20:10 foolangirl
阅读(240)
评论(0)
推荐(0)
2020年12月27日
Hive学习小记-(6)collect_set与笛卡尔积使用
摘要: 场景 有两张表,一张活动清单表actv_evt:记录了所有的活动,包括活动id,活动名称及活动相关配置信息;一张客户活动参与表cust_actv,记录了客户参与活动信息。 cust_actv中参与了活动的客户定义为活跃客户,现在公司想对活跃客户做推广,将没参与过的活动推送给他们 举例:共有actv1
阅读全文
posted @ 2020-12-27 19:58 foolangirl
阅读(1366)
评论(0)
推荐(0)
2020年12月26日
Hive学习小记-(5)表字段变动频繁时用json格式
摘要: 建表场景 create test_json( id int ,student string ) row format delimited fields terminated by ' '; -- 假数据: 1 {"name":"zhangsan","age":17,"sex":"F"} --这里一定
阅读全文
posted @ 2020-12-26 21:58 foolangirl
阅读(247)
评论(0)
推荐(0)
Hive学习小记-(4)带复杂集合类型及指定多分隔符hive建表
摘要: 带集合类型建表 Hive上创建测试表test create table test( name string, friends array<string>, children map<string, int>, address struct<street:string, city:string> )
阅读全文
posted @ 2020-12-26 19:43 foolangirl
阅读(890)
评论(0)
推荐(0)
nowcoder-shell篇(grep、awk、sed为主)
摘要: 统计文件行数 # 统计文件行数 cat nowcoder.txt | wc -l 打印文件最后5行 tail -n -5 nowcoder.txt #以下一样,展示文件最后5行: tail -n 5 nowcoder.txt tail -n5 nowcoder.txt tail -5 nowcode
阅读全文
posted @ 2020-12-26 18:42 foolangirl
阅读(154)
评论(0)
推荐(0)
2020年12月25日
剑指offer02-替换空格
摘要: 题目描述 请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。 知识点回顾 字符串 代码 一、利用字符串拼接逐个替换 # -*- coding:utf-8 -*- class Solution:
阅读全文
posted @ 2020-12-25 20:53 foolangirl
阅读(65)
评论(0)
推荐(0)
2020年12月24日
剑指offer67-剪绳子**
摘要: 题目描述 给你一根长度为n的绳子,请把绳子剪成整数长的m段(m、n都是整数,n>1并且m>1,m<=n),每段绳子的长度记为k[1],...,k[m]。请问k[1]x...xk[m]可能的最大乘积是多少?例如,当绳子的长度是8时,我们把它剪成长度分别为2、3、3的三段,此时得到的最大乘积是18。 输
阅读全文
posted @ 2020-12-24 19:01 foolangirl
阅读(67)
评论(0)
推荐(0)
2020年12月23日
爬虫5-Scrapy爬虫架构
摘要: 简介 Scrapy是爬取网站,提取结构性数据并存储的应用框架。对爬取过程中的请求、返回、解析、存储、调度等流程提供模块化支持。 items模块——定义需要爬取的数据字段 保存爬取到的数据的容器,python的字典类型。根据网站数据对item进行定义字段。 # items示例 import scrap
阅读全文
posted @ 2020-12-23 21:42 foolangirl
阅读(108)
评论(0)
推荐(0)
2020年12月21日
爬虫4-网站结构分析
摘要: 为什么要分析网站结构 在爬虫系统中,待抓取URL队列及队列中URL的排列顺序非常重要。这关系到能否遍历所有的目标页面,关系到抓取页面的先后问题。 树状结构 网站内容以树状结构组织,以一级、二级分类等一层层组织。 以豆瓣电影为例:https://www.douban.com/ 1)一级 首先要从电影分
阅读全文
posted @ 2020-12-21 20:46 foolangirl
阅读(431)
评论(0)
推荐(0)
2020年12月20日
爬虫3-python爬取非结构化数据下载到本地
摘要: urlretrieve方法 通过上节爬虫2,可以将结构化数据存入mysql等数据库,但脚本中还存在非结构化数据: # print(content.xpath('//*[@dd_name="大图"]/img/@src').pop()) # 图片 python的urlretrieve方法可实现将远程数据
阅读全文
posted @ 2020-12-20 19:58 foolangirl
阅读(387)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
10
下一页
公告