01 2019 档案
摘要:windows修改host文件: C:\Windows\System32\drivers\etc\hostslinux 修改host文件: /etc/hosts 在文件后面加上这两行 贼快
阅读全文
摘要:mysql中的函数,字符串拼接的话,可以用concat(),但是此函数是针对一条记录中,可以将不同的字段拼接,并不适用多条记录的某一字段。 mysql中group_concat函数多条记录的某一字段拼接。需要和group by一起使用 不和group by一起使用
阅读全文
摘要:update 和 delete都属于事物操作。 hive的行级修改 需要开启事物。
阅读全文
摘要:union all union 相同点 是 相当于上下拼接 上下两个拼接表必须字段保持一致 不同 union有去重效果,速度会更慢。 union all的子句里不支持orderByClause、clusterByClause、distributeByClause、sortByClause或limit
阅读全文
摘要:近一月客户新增常规里程数与额度比即上个月 第一天(包含)到上个月最后一天(包含) 字段是batch_date==>格式是 yyyymmdd
阅读全文
摘要:摘要 Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录 数学函数 集合函数 类型转换函数 日期函数 条件函数 字符函数 聚合函数 表生成函数 数学函数 Return Type Name (Signatu
阅读全文
摘要:需求:某资产近一个月的资产值 比如:今天是2018年2月28日,近一个月若是按照自然月来算,那么是2018年2月1日至2018年2月28日。最终需要的日期格式为:yyyyMMdd。 当日时间戳 unix_timestamp() 方法可得到当前时间的时间戳。 上月今日 使用 add_months(日期
阅读全文
摘要:1. from_unixtime 日期函数UNIX时间戳转日期函数: from_unixtime 语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定
阅读全文
摘要:来到广发返现由于历史遗留问题很多时间格式十分杂乱 我将总结一下时间日期的事情 1.hive原生时间函数的功能 2.一些基本业务时间范围的指标的sql案例 3.自定义udf函数让后来人更方便
阅读全文
摘要:一、hive -e ‘sql语句’ (shell命令) 适合比较短的sql语句调用,优点是可以直接在shell中调用静音模式 -S 在执行HiveQL过程中,不在显示器输出MR的执行过程hive -S -e ‘sql语句’ > test.txt 将执行结果直接输入到本地文件 二、hive -f sq
阅读全文
摘要:1.Common/Shuffle/Reduce Join Reduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大,它会进行把相同key的value合在一起,正好符合我们在sql中的join,然后再去组合,如图所示。 2.Map Join 2) 需要
阅读全文
摘要:1. 多表join优化代码结构: select .. from JOINTABLES (A,B,C) WITH KEYS (A.key, B.key, C.key) where .... 关联条件相同多表join会优化成一个job 2. LeftSemi-Join是可以高效实现IN/EXISTS子查
阅读全文
摘要:已知日期 要求日期 语句 结果 本周任意一天 本周一 select date_sub(next_day('2016-11-29','MO'),7) ; 2016-11-28 本周任意一天 上周一 select date_sub(next_day('2016-11-29','MO'),14) ; 20
阅读全文
摘要:一、Hive下查看数据表信息的方法方法1:查看表的字段信息desc table_name; 方法2:查看表的字段信息及元数据存储路径desc extended table_name; 方法3:查看表的字段信息及元数据存储路径desc formatted table_name; 方法4:查看建表语句及
阅读全文
摘要:可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~ 注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持! 一、介绍 with as 也叫做子查询部分,
阅读全文
摘要:一、CONCAT()函数CONCAT()函数用于将多个字符串连接成一个字符串。使用数据表Info作为示例,其中SELECT id,name FROM info LIMIT 1;的返回结果为 1、语法及使用特点:CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为
阅读全文
摘要:昨天面对某客户域做表关联的时候发现了。 有两张相同内容的主表。但是表的设计结构并不相同: (每个领域都有主表,每次往这个领域(库)添加新表的时候一般都会join 主表,从而有唯一的主键id) 这两个表提供了这个领域的主键(id). 在这个 + + + +--+| col_name | data_ty
阅读全文
摘要:一般在公司的字符串处理相对复杂。我又比较懒。更喜欢使用java的udf解决。之前在面试问到一个正则没有回答上来。就GG了。 SQL中的正则: 1) regexp_extract regexp_extract(str , regexp , idx) 参数解释: str是被解析的字符串或字段名 rege
阅读全文
摘要:今天被问到一个问题?挺简单的 把if换成case就可以实现多列取一列。
阅读全文
摘要:背景 我们经常能在shell脚本中发现>/dev/null 2>&1这样的语句。以前的我并没有去深入地理解这段命令的作用,照搬照用,今天开始去解读>/dev/null 2>&1。 shell重定向介绍 就像我们平时写的程序一样,一段程序会处理外部的输入,然后将运算结果输出到指定的位置。在交互式的程序
阅读全文
摘要:一.$ $n 向脚本传递参数,脚本内获取参数的格式为:$n。n 代表一个数字,1 为执行脚本的第一个参数,2 为执行脚本的第二个参数,以此类推……0为执行的文件名 二.$(( )) 与 $( ) 还有${ }的区别 $( ) $( ) 与 ` ` (反引号)在 bash shell 中,$( ) 与
阅读全文
摘要:经常使用 source /etc/profile命令让配置文件文件生效。却不知道source命令是干嘛的?哎! 定义: source命令也称为“点命令”,也就是一个点符号(.),是bash的内部命令。 功能:使Shell读入指定的Shell程序文件并依次执行文件中的所有语句 source命令通常用于
阅读全文
摘要:本章全部来自于李航的《统计学》以及他的博客和自己试验。仅供个人复习使用。 Boosting算法通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。我们以AdaBoost为例。 它的自适应在于:前一个弱分类器分错的样本的权值(样本对应的权值)会得到加强,权值更新后的样本再
阅读全文
摘要:人工神经网络 什么是人工神经网络? 我们先从他的结构谈起 说明: 通常一个神经网络由一个input layer,多个hidden layer和一个output layer构成。图中圆圈可以视为一个神经元(又可以称为感知器)设计神经网络的重要工作是设计hidden layer,及神经元之间的权重添加少
阅读全文
摘要:抽象类和接口: java 我们先从java讲起,没有java基础的可以略过。 (挖坑) python 在python并没有抽象类之说,或者说抽象类=接口类(区别于接口) 继承有两种用途: 一:继承基类的方法,并且做出自己的改变或者扩展(代码重用) 二:声明某个子类兼容于某基类,定义一个接口类Inte
阅读全文
摘要:一、进程简介 什么是进程 进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。在早期面向进程设计的计算机结构中,进程是程序的基本执行实体;在当代面向线程设计的计算机结构中,进程是线程的容器。程序是指令、数据及其组织形式的描述
阅读全文
摘要:2019年1月8日,付哥给了我一份公司以前的一份SQL优化方案文档。十分感谢。记录了许多在公司以前优化的案例。 一、表TMP_c(58分钟) 表来源: 1.IML_a 这张表在2018年11月某一天的数据量是22025054 2.TMP_b 这表数据量是12条 优化点: 1.两张表关联的时候把BAT
阅读全文
摘要:上次去深圳招行面试。被问到了这个。中间讨论了几个关于贝叶斯的问题。可能我并不偏向知识图谱。然后就没有下文了。 结合李航的《统计学》和几篇博客,还有在凤凰网某位仁兄贡献新闻分类的源码。给自己复习一下。 为什么叫朴素贝叶斯和大学课本里的贝叶斯有什么不同? 朴素一词来源于==>假设各特征之间相互独立。这一
阅读全文
摘要:今天在梳理银行SQL业务的时候出现了一个全角的问题:两个种代码 都可以 使用了UDF函数解决 我们来理解一下Java中全角字符和半角字符之间的关系
阅读全文
摘要:表述类目的变量通常,通常没有次序概念,且取值范围有限。例如性别行业信用卡类型。有些模型可以直接读类别变量(例如决策树)。有些模型不能识别类别变量(例如回归模型,神经网络,有距离的度量模型(svn,knn))。 当类别变量无法放入模型的时候,需要做编码处理即以数值的形式替代原有的值: onehot编码
阅读全文
摘要:命名空间和作用域 函数镶嵌和作用域链 函数名的本质 闭包 回头填坑
阅读全文
摘要:函数定义 注意 对参数的思考 1.实参与形参 参数还有分别: 调用函数时传递的这个实际值被称为实际参数,因为这个是实际的要交给函数的内容,简称实参。 定义函数时的()里的,只是一个变量的名字,被称为形式参数,因为在定义函数的时候它只是一个形式,表示这里有一个参数,简称形参。 2.位置参数和默认参数
阅读全文
摘要:前言 集成学习按照个体学习器之间是否存在依赖关系可以分为两类: 第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成。代表算法是boosting系列算法。在boosting系列算法中, Adaboost是最著名的算法之一。 第二类是个体学习器之间不存在强依赖关系,一系列个体学习器
阅读全文
摘要:为什么 要把匿名函数和functools模块写在一起? 因为 lamda函数和functools模块都是对函数一种增强或者是简化。 匿名函数: 为了解决那些功能很简单的需求而设计一次性的需求函数 functools.partial(func[,*args][, **keywords]) Return
阅读全文
摘要:无论在写自动化脚本还是做测试os模块都是一个重量级的模块。今天我要总结一下os模块,os模块下的方法是真的多。 os.name——name顾名思义就是'名字',这里的名字是指操作系统的名字,主要作用是判断目前正在使用的平台,并给出操作系统的名字,如Windows 返回 'nt'; Linux 返回'
阅读全文
摘要:预热: 我们先从几个物理概念入手理解什么是流量,存量,增量 (1)存量:系统在某一时点时的所保有的数量; (2)流量:是指在某一段时间内流入/出系统的数量 (3)增量:则是指在某一段时间内系统中保有数量的变化 (4)增量=流入量--流出量 (5)本期期末存量=上期期末存量+本期内增量 正题 一般公司
阅读全文
摘要:原始数据如下图所示:(商品的销售明细)date=业务日期;Item=商品名称;saleqty=销售数量 -- 建立测试数据(表)create table test (Date varchar(10), item char(10),saleqty int);insert test values('20
阅读全文
摘要:①由非更新(读取)操作创建的锁。其他用户可以并发读取数据,但任何事务都不能获取数据上的排它锁,直到已释放所有共享锁。共享锁(S锁)又称为读锁,若事务T对数据对象A加上S锁,则事务T只能读A, 不能修改A;其他事务只能再对A加S锁,而不能加X锁,直到T释放A上的S锁。这就保证了其他事务可以读A,但在T
阅读全文
摘要:前言: 常用: a)Counter: 计数器,用于统计元素的数量 b)OrderDict:有序字典 c)defaultdict:值带有默认类型的字典 d)namedtuple:可命名元组,通过名字来访问元组元素 e)deque :双向队列,队列头尾都可以放,也都可以取(与单向队列对比,单向队列只能一
阅读全文
摘要:filter filter()函数接收一个函数 f 和一个iterable的对象,这个函数 f 的作用是对每个元素进行判断,返回 True或 False,filter()根据判断结果自动过滤掉不符合条件(False)的元素,返回由符合条件元素组成的新可迭代filter对象。 结果:[1, 7, 9,
阅读全文
摘要:1.数学计算函数 2.集合类操作函数 3.逻辑函数 4.反射函数 compile(source, filename, mode[, flags[, dont_inherit]]) 5.io操作函数
阅读全文
摘要:前言: 常用: a)Counter: 计数器,用于统计元素的数量 b)OrderDict:有序字典 c)defaultdict:值带有默认类型的字典 d)namedtuple:可命名元组,通过名字来访问元组元素 e)deque :双向队列,队列头尾都可以放,也都可以取(与单向队列对比,单向队列只能一
阅读全文
摘要:作为一个非理工科的经管学生,在数学基础有限的情况的,理解难免不足。文章多有copy。 参考博客: https://blog.csdn.net/zouxy09/article/details/24971995 1.前言 为什么探讨L0,L1,L2范数,机器学习中出现的非常频繁的问题:过拟合与规则化。
阅读全文
摘要:1.数仓建模的目标 访问性能:能够快速查询所需的数据,减少数据I/O数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本使用效率:改善用户应用体验,提高使用数据的效率数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量的、一致的数据访问平台
阅读全文
摘要:1.前言 Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。 但是事实上,不光Spark是内存计算,Hadoop其实也是内存计算。 Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁
阅读全文
摘要:需求:同事让我写一个python代码实现对某一文件下所有sql文件中的sql语句进行扫描,观察每个sql判断每个table是作为中间表,结果表还是依赖表。 思路当然是用正则去匹配; 我们先复习一下什么是三个表究竟是啥?
阅读全文
摘要:1.一维数组中寻找与某个数最近的数 随机数组: [0.87249114 0.64595395 0.10142435 0.46202885 0.15948433 0.53886897 0.17802543 0.0885369 0.9859855 0.92086206 0.94694556 0.9814
阅读全文
摘要:1.import numpy as npZ=np.random.randint(0,10,(5,5)) print("排序前:\n",Z) print("Z[:,2]:\n",Z[:,2],type(Z[:,2])) print("Z[:,2].argsort:\n",Z[:,2].argsort(
阅读全文
摘要:numpy.random.uniform介绍: 1. 函数原型: numpy.random.uniform(low,high,size) ==》也即其他函数是对该函数的进一步封装 功能:从一个均匀分布[low,high)中随机采样,注意定义域是左闭右开,即包含low,不包含high. 参数介绍: l
阅读全文

浙公网安备 33010602011771号