2020年9月13日
摘要: TRIM(s):返回去掉字符串s的尾随空格的结果。 INDEX(s,s1):查找s1在s中出现的位置。找不到时返回0。 SUBSTR(s,p,n):从字符串s中的第p个字符开始抽取n个字符长的子串 。 TRANWRD(s,s1,s2):从字符串s中把所有字符串s1替换成字符串s2后的结果。 STRI 阅读全文
posted @ 2020-09-13 09:15 larry66 阅读(355) 评论(0) 推荐(0)
  2020年9月12日
摘要: 11.消费者包含在消费者组中,一个消费者组内同时一个分区只能同时对应一个消费者,所以可能会产生处于空闲状态的消费者。 12.消费者按照队列的形式取数,取完后把偏移量offset记录在zookeeper中,下次再取数据的时候会接着上次的位置继续取数。 13.偏移量offset存在zookeeper中, 阅读全文
posted @ 2020-09-12 17:22 larry66 阅读(136) 评论(0) 推荐(0)
  2020年9月4日
摘要: 1.kafka是一个分布式的消息队列,缓存系统,消息的发布和订阅系统。 2.始于Linkedin公司,开源于apache。 3.包含生产者,消费者,broker。 4.每秒支持百万消息处理。 5.支持多个生成者,多个消费者,多个broker 6.生成者产生数据,按topic分类数据,对数据进行分区, 阅读全文
posted @ 2020-09-04 23:29 larry66 阅读(123) 评论(0) 推荐(0)
  2020年8月7日
摘要: 前段时间做了一些powerbi的开发工作,整理一下开发的大致步骤: 1.明确主题 2.设计数据模型:星型模型下设计事实表,维度表,数据粒度 3.整理源数据,获取源数据:文本文件,EXCEL,CSV,DB 4.在查询编辑器清洗数据,加工数据,聚合数据,简单的操作可以使用自带的图形化功能,复杂的操作(比 阅读全文
posted @ 2020-08-07 23:59 larry66 阅读(770) 评论(0) 推荐(0)
摘要: 整理一下平时用过的python库: ConfigParser:ini文件解析和设定 Numpy:科学计算的基础库 Pandas:数据分析库 pip:包安装和管理库 xlrd:读excel xlwt:写excel Faker:方便生成各类测试数据 os:处理文件和目录 time:时间库 TensorF 阅读全文
posted @ 2020-08-07 23:06 larry66 阅读(102) 评论(0) 推荐(0)
摘要: 使用len()函数的时候遇到下面的错误信息: 错误信息:UnboundLocalError: local variable 'len' referenced before assignment 原因调查:所在的方法里定义了名为len的本地变量。变量重命名后,上面的问题解决了。 阅读全文
posted @ 2020-08-07 22:46 larry66 阅读(2598) 评论(0) 推荐(0)
  2020年7月20日
摘要: 什么是Hive: 数据仓库软件,可以通过SQL读写和管理分布式存储的大型数据集,结构可以映射在已经存储的数据。用户可以通过命令行工具和JDBC连接到Hive。 Hive Commands: quit/exit:退出interactive shell reset:重置配置设定到默认值。 set =:设 阅读全文
posted @ 2020-07-20 20:52 larry66 阅读(113) 评论(0) 推荐(0)
  2020年7月18日
摘要: 在对数据进行汇总和分析的时候,经常需要用到排名相关的操作,下面是hive中经常用到的3个排名函数: rank() dense_rank() row_number() 函数说明: rank():在一组数据内按顺序显示排名顺序,值相同的情况下,排序数会重复,下个排序数会根据记录数接着排名。 dense_ 阅读全文
posted @ 2020-07-18 22:39 larry66 阅读(294) 评论(0) 推荐(0)
  2020年7月12日
摘要: bin → usr/bin:所有可执行的二进制文件 boot:启动处理的重要文件,包括内核文件 dev:所有硬件设备相关的文件 etc:应用的配置文件和启动,关闭脚本等 home:用户的home路径 lib → usr/lib:内核和共有的静态链接库 lib64 → usr/lib64:kernel 阅读全文
posted @ 2020-07-12 19:47 larry66 阅读(246) 评论(0) 推荐(0)
  2020年7月11日
摘要: from numpy import * class numpyMatrix: if __name__ == '__main__': vArray = random.rand(4, 4) print('This is a array sample \n', vArray) vMatrix = mat( 阅读全文
posted @ 2020-07-11 20:41 larry66 阅读(122) 评论(0) 推荐(0)