随笔档案「2019年1月」 - wqbin

摘要：windows修改host文件： C:\Windows\System32\drivers\etc\hostslinux 修改host文件： /etc/hosts 在文件后面加上这两行贼快阅读全文

posted @ 2019-01-31 16:45 wqbin 阅读(1764) 评论(0) 推荐(0)

group_concat()

摘要：mysql中的函数，字符串拼接的话，可以用concat()，但是此函数是针对一条记录中，可以将不同的字段拼接，并不适用多条记录的某一字段。 mysql中group_concat函数多条记录的某一字段拼接。需要和group by一起使用不和group by一起使用阅读全文

posted @ 2019-01-23 22:18 wqbin 阅读(235) 评论(0) 推荐(0)

hive的事物性 transaction manager

摘要：update 和 delete都属于事物操作。 hive的行级修改需要开启事物。阅读全文

posted @ 2019-01-18 22:38 wqbin 阅读(1745) 评论(0) 推荐(0)

union不支持orderByClause、clusterByClause、distributeByClause、sortByClause或limitClause

摘要：union all union 相同点是相当于上下拼接上下两个拼接表必须字段保持一致不同 union有去重效果，速度会更慢。 union all的子句里不支持orderByClause、clusterByClause、distributeByClause、sortByClause或limit 阅读全文

posted @ 2019-01-18 21:52 wqbin 阅读(2482) 评论(0) 推荐(0)

hive日期函数-广发实战（三）

摘要：近一月客户新增常规里程数与额度比即上个月第一天（包含）到上个月最后一天（包含）字段是batch_date==>格式是 yyyymmdd 阅读全文

posted @ 2019-01-15 15:14 wqbin 阅读(410) 评论(0) 推荐(0)

hive函数大全

摘要：摘要 Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数 Return Type Name (Signatu 阅读全文

posted @ 2019-01-15 14:57 wqbin 阅读(18179) 评论(1) 推荐(2)

hive日期函数-Demo（二）

摘要：需求:某资产近一个月的资产值比如：今天是2018年2月28日，近一个月若是按照自然月来算，那么是2018年2月1日至2018年2月28日。最终需要的日期格式为：yyyyMMdd。当日时间戳 unix_timestamp() 方法可得到当前时间的时间戳。上月今日使用 add_months(日期阅读全文

posted @ 2019-01-15 11:48 wqbin 阅读(7756) 评论(0) 推荐(1)

hive日期函数-原生函数（二）

摘要：1. from_unixtime 日期函数UNIX时间戳转日期函数: from_unixtime 语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳（从1970-01-0100:00:00 UTC到指定阅读全文

posted @ 2019-01-15 10:43 wqbin 阅读(13687) 评论(0) 推荐(0)

hive日期函数-杂谈（一）

摘要：来到广发返现由于历史遗留问题很多时间格式十分杂乱我将总结一下时间日期的事情 1.hive原生时间函数的功能 2.一些基本业务时间范围的指标的sql案例 3.自定义udf函数让后来人更方便阅读全文

posted @ 2019-01-15 10:34 wqbin 阅读(245) 评论(0) 推荐(0)

hive三种调用方式

摘要：一、hive -e ‘sql语句’ （shell命令）适合比较短的sql语句调用，优点是可以直接在shell中调用静音模式 -S 在执行HiveQL过程中，不在显示器输出MR的执行过程hive -S -e ‘sql语句’ > test.txt 将执行结果直接输入到本地文件二、hive -f sq 阅读全文

posted @ 2019-01-15 10:12 wqbin 阅读(3010) 评论(0) 推荐(0)

Hive的三种Join方式

摘要：1.Common/Shuffle/Reduce Join Reduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大，它会进行把相同key的value合在一起，正好符合我们在sql中的join，然后再去组合，如图所示。 2.Map Join 2）需要阅读全文

posted @ 2019-01-15 10:05 wqbin 阅读(7283) 评论(0) 推荐(2)

hive优化方式总结

摘要：1. 多表join优化代码结构： select .. from JOINTABLES (A,B,C) WITH KEYS (A.key, B.key, C.key) where .... 关联条件相同多表join会优化成一个job 2. LeftSemi-Join是可以高效实现IN/EXISTS子查阅读全文

posted @ 2019-01-14 22:32 wqbin 阅读(2331) 评论(0) 推荐(0)

hive常用日期函数-模板

摘要：已知日期要求日期语句结果本周任意一天本周一 select date_sub(next_day('2016-11-29','MO'),7) ; 2016-11-28 本周任意一天上周一 select date_sub(next_day('2016-11-29','MO'),14) ; 20 阅读全文

posted @ 2019-01-14 17:52 wqbin 阅读(2394) 评论(0) 推荐(0)

查看hive的信息

摘要：一、Hive下查看数据表信息的方法方法1：查看表的字段信息desc table_name; 方法2：查看表的字段信息及元数据存储路径desc extended table_name; 方法3：查看表的字段信息及元数据存储路径desc formatted table_name; 方法4：查看建表语句及阅读全文

posted @ 2019-01-14 16:10 wqbin 阅读(3234) 评论(0) 推荐(0)

hivesql之 table名 with as 转储

摘要：可能某个子查询在多个层级多个地方存在重复使用的情况，这个时候我们可以使用 with as 语句将其独立出来，极大提高SQL可读性，简化SQL~ 注：目前 oracle、sql server、hive等均支持 with as 用法，但 mysql并不支持！一、介绍 with as 也叫做子查询部分，阅读全文

posted @ 2019-01-14 15:27 wqbin 阅读(3230) 评论(0) 推荐(0)

hivesql中的concat函数,concat_ws函数，concat_group函数之间的区别

摘要：一、CONCAT（）函数CONCAT（）函数用于将多个字符串连接成一个字符串。使用数据表Info作为示例，其中SELECT id,name FROM info LIMIT 1;的返回结果为 1、语法及使用特点：CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为阅读全文

posted @ 2019-01-14 14:58 wqbin 阅读(120659) 评论(0) 推荐(2)

hive数据仓库表设计之（矮宽表+高窄表）

摘要：昨天面对某客户域做表关联的时候发现了。有两张相同内容的主表。但是表的设计结构并不相同：（每个领域都有主表，每次往这个领域（库）添加新表的时候一般都会join 主表，从而有唯一的主键id）这两个表提供了这个领域的主键（id）. 在这个 + + + +--+| col_name | data_ty 阅读全文

posted @ 2019-01-11 14:58 wqbin 阅读(8143) 评论(0) 推荐(0)

Hivesql中的正则

摘要：一般在公司的字符串处理相对复杂。我又比较懒。更喜欢使用java的udf解决。之前在面试问到一个正则没有回答上来。就GG了。 SQL中的正则： 1） regexp_extract regexp_extract(str , regexp , idx) 参数解释: str是被解析的字符串或字段名 rege 阅读全文

posted @ 2019-01-10 10:26 wqbin 阅读(5042) 评论(0) 推荐(0)

每行选取不同的列组成一个新表

摘要：今天被问到一个问题？挺简单的把if换成case就可以实现多列取一列。阅读全文

posted @ 2019-01-09 20:05 wqbin 阅读(331) 评论(0) 推荐(0)

解读>/dev/null 2>&1

摘要：背景我们经常能在shell脚本中发现>/dev/null 2>&1这样的语句。以前的我并没有去深入地理解这段命令的作用，照搬照用，今天开始去解读>/dev/null 2>&1。 shell重定向介绍就像我们平时写的程序一样，一段程序会处理外部的输入，然后将运算结果输出到指定的位置。在交互式的程序阅读全文

posted @ 2019-01-09 16:47 wqbin 阅读(385) 评论(0) 推荐(0)

$命令

摘要：一.$ $n 向脚本传递参数，脚本内获取参数的格式为：$n。n 代表一个数字，1 为执行脚本的第一个参数，2 为执行脚本的第二个参数，以此类推……0为执行的文件名二.$(( )) 与 $( ) 还有${ }的区别 $( ) $( ) 与 ` ` (反引号)在 bash shell 中，$( ) 与阅读全文

posted @ 2019-01-09 15:39 wqbin 阅读(1859) 评论(0) 推荐(0)

source命令

摘要：经常使用 source /etc/profile命令让配置文件文件生效。却不知道source命令是干嘛的？哎！定义： source命令也称为“点命令”，也就是一个点符号（.）,是bash的内部命令。功能：使Shell读入指定的Shell程序文件并依次执行文件中的所有语句 source命令通常用于阅读全文

posted @ 2019-01-09 14:15 wqbin 阅读(1294) 评论(0) 推荐(0)

Boosting算法（一）

摘要：本章全部来自于李航的《统计学》以及他的博客和自己试验。仅供个人复习使用。 Boosting算法通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类性能。我们以AdaBoost为例。它的自适应在于：前一个弱分类器分错的样本的权值（样本对应的权值）会得到加强，权值更新后的样本再阅读全文

posted @ 2019-01-09 10:56 wqbin 阅读(3303) 评论(0) 推荐(0)

人工神经网络算法原理和应用

摘要：人工神经网络什么是人工神经网络？我们先从他的结构谈起说明：通常一个神经网络由一个input layer，多个hidden layer和一个output layer构成。图中圆圈可以视为一个神经元（又可以称为感知器）设计神经网络的重要工作是设计hidden layer，及神经元之间的权重添加少阅读全文

posted @ 2019-01-09 09:15 wqbin 阅读(2933) 评论(0) 推荐(0)

python之抽象类&abc模块+虚拟子类&register

摘要：抽象类和接口： java 我们先从java讲起，没有java基础的可以略过。（挖坑） python 在python并没有抽象类之说，或者说抽象类=接口类（区别于接口）继承有两种用途：一：继承基类的方法，并且做出自己的改变或者扩展（代码重用）二：声明某个子类兼容于某基类，定义一个接口类Inte 阅读全文

posted @ 2019-01-08 16:06 wqbin 阅读(2447) 评论(0) 推荐(0)

python之面向对象（二）继承&多态&封装

摘要：天坑阅读全文

posted @ 2019-01-08 15:50 wqbin 阅读(190) 评论(0) 推荐(0)

python之进程---从小白到老鸟（一）

摘要：一、进程简介什么是进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。在早期面向进程设计的计算机结构中，进程是程序的基本执行实体；在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描述阅读全文

posted @ 2019-01-08 14:52 wqbin 阅读(434) 评论(0) 推荐(0)

hive优化实战

摘要：2019年1月8日，付哥给了我一份公司以前的一份SQL优化方案文档。十分感谢。记录了许多在公司以前优化的案例。一、表TMP_c(58分钟) 表来源： 1.IML_a 这张表在2018年11月某一天的数据量是22025054 2.TMP_b 这表数据量是12条优化点： 1.两张表关联的时候把BAT 阅读全文

posted @ 2019-01-08 12:37 wqbin 阅读(512) 评论(0) 推荐(0)

朴素贝叶斯原理和应用

摘要：上次去深圳招行面试。被问到了这个。中间讨论了几个关于贝叶斯的问题。可能我并不偏向知识图谱。然后就没有下文了。结合李航的《统计学》和几篇博客，还有在凤凰网某位仁兄贡献新闻分类的源码。给自己复习一下。为什么叫朴素贝叶斯和大学课本里的贝叶斯有什么不同？朴素一词来源于==>假设各特征之间相互独立。这一阅读全文

posted @ 2019-01-07 22:07 wqbin 阅读(2765) 评论(0) 推荐(0)

特殊变量的处理（二）

摘要：挖坑以后填阅读全文

posted @ 2019-01-07 20:40 wqbin 阅读(161) 评论(0) 推荐(0)

Hive中遇到全角

摘要：今天在梳理银行SQL业务的时候出现了一个全角的问题：两个种代码都可以使用了UDF函数解决我们来理解一下Java中全角字符和半角字符之间的关系阅读全文

posted @ 2019-01-07 17:53 wqbin 阅读(2525) 评论(0) 推荐(0)

特殊变量的处理（一）onehot&dummy

摘要：表述类目的变量通常，通常没有次序概念，且取值范围有限。例如性别行业信用卡类型。有些模型可以直接读类别变量（例如决策树）。有些模型不能识别类别变量（例如回归模型，神经网络，有距离的度量模型（svn，knn））。当类别变量无法放入模型的时候，需要做编码处理即以数值的形式替代原有的值： onehot编码阅读全文

posted @ 2019-01-07 17:44 wqbin 阅读(3199) 评论(0) 推荐(0)

GBDT算法之流失预警模型

摘要：挖坑。。。来日方长阅读全文

posted @ 2019-01-07 15:36 wqbin 阅读(401) 评论(0) 推荐(0)

python函数（二）

摘要：命名空间和作用域函数镶嵌和作用域链函数名的本质闭包回头填坑阅读全文

posted @ 2019-01-07 14:45 wqbin 阅读(152) 评论(0) 推荐(0)

python函数（一）

摘要：函数定义注意对参数的思考 1.实参与形参参数还有分别：调用函数时传递的这个实际值被称为实际参数，因为这个是实际的要交给函数的内容，简称实参。定义函数时的（）里的，只是一个变量的名字，被称为形式参数，因为在定义函数的时候它只是一个形式，表示这里有一个参数，简称形参。 2.位置参数和默认参数阅读全文

posted @ 2019-01-07 14:26 wqbin 阅读(244) 评论(0) 推荐(0)

Adaboost

摘要：前言集成学习按照个体学习器之间是否存在依赖关系可以分为两类：第一个是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成。代表算法是boosting系列算法。在boosting系列算法中， Adaboost是最著名的算法之一。第二类是个体学习器之间不存在强依赖关系，一系列个体学习器阅读全文

posted @ 2019-01-07 10:44 wqbin 阅读(317) 评论(0) 推荐(0)

python 中的匿名函数lamda和functools模块

摘要：为什么要把匿名函数和functools模块写在一起? 因为 lamda函数和functools模块都是对函数一种增强或者是简化。匿名函数：为了解决那些功能很简单的需求而设计一次性的需求函数 functools.partial(func[,*args][, **keywords]) Return 阅读全文

posted @ 2019-01-05 17:23 wqbin 阅读(296) 评论(0) 推荐(0)

python 中的os模块

摘要：无论在写自动化脚本还是做测试os模块都是一个重量级的模块。今天我要总结一下os模块，os模块下的方法是真的多。 os.name——name顾名思义就是'名字'，这里的名字是指操作系统的名字，主要作用是判断目前正在使用的平台，并给出操作系统的名字，如Windows 返回 'nt'; Linux 返回' 阅读全文

posted @ 2019-01-05 15:56 wqbin 阅读(3978) 评论(1) 推荐(0)

数仓中的全量表，增量表，拉链表，流水表，快照表

摘要：预热：我们先从几个物理概念入手理解什么是流量，存量，增量（1）存量：系统在某一时点时的所保有的数量；（2）流量：是指在某一段时间内流入/出系统的数量（3）增量：则是指在某一段时间内系统中保有数量的变化（4）增量=流入量--流出量（5）本期期末存量=上期期末存量+本期内增量正题一般公司阅读全文

posted @ 2019-01-05 12:19 wqbin 阅读(23079) 评论(0) 推荐(3)

Mysql-sql行转列

摘要：原始数据如下图所示：（商品的销售明细）date=业务日期；Item=商品名称；saleqty=销售数量 -- 建立测试数据（表）create table test (Date varchar(10), item char(10),saleqty int);insert test values('20 阅读全文

posted @ 2019-01-05 11:51 wqbin 阅读(2986) 评论(0) 推荐(0)

Java中的锁

摘要：①由非更新（读取）操作创建的锁。其他用户可以并发读取数据，但任何事务都不能获取数据上的排它锁，直到已释放所有共享锁。共享锁(S锁)又称为读锁，若事务T对数据对象A加上S锁，则事务T只能读A，不能修改A；其他事务只能再对A加S锁，而不能加X锁，直到T释放A上的S锁。这就保证了其他事务可以读A，但在T 阅读全文

posted @ 2019-01-04 22:21 wqbin 阅读(193) 评论(0) 推荐(0)

python之collections模块（OrderDict,defaultdict）

摘要：前言：常用： a）Counter：计数器，用于统计元素的数量 b）OrderDict：有序字典 c）defaultdict：值带有默认类型的字典 d）namedtuple：可命名元组，通过名字来访问元组元素 e）deque :双向队列，队列头尾都可以放，也都可以取（与单向队列对比，单向队列只能一阅读全文

posted @ 2019-01-04 22:05 wqbin 阅读(2536) 评论(0) 推荐(0)

python内置函数（二）之filter，map，sorted

摘要：filter filter()函数接收一个函数 f 和一个iterable的对象，这个函数 f 的作用是对每个元素进行判断，返回 True或 False，filter()根据判断结果自动过滤掉不符合条件（False）的元素，返回由符合条件元素组成的新可迭代filter对象。结果：[1, 7, 9, 阅读全文

posted @ 2019-01-04 17:00 wqbin 阅读(271) 评论(0) 推荐(0)

python的内置函数（一）

摘要：1.数学计算函数 2.集合类操作函数 3.逻辑函数 4.反射函数 compile(source, filename, mode[, flags[, dont_inherit]]) 5.io操作函数阅读全文

posted @ 2019-01-04 16:13 wqbin 阅读(182) 评论(0) 推荐(0)

python之collections模块（nametuple,Counter）

摘要：前言：常用： a）Counter：计数器，用于统计元素的数量 b）OrderDict：有序字典 c）defaultdict：值带有默认类型的字典 d）namedtuple：可命名元组，通过名字来访问元组元素 e）deque :双向队列，队列头尾都可以放，也都可以取（与单向队列对比，单向队列只能一阅读全文

posted @ 2019-01-04 16:07 wqbin 阅读(722) 评论(0) 推荐(0)

范数规则化

摘要：作为一个非理工科的经管学生，在数学基础有限的情况的，理解难免不足。文章多有copy。参考博客： https://blog.csdn.net/zouxy09/article/details/24971995 1.前言为什么探讨L0,L1,L2范数，机器学习中出现的非常频繁的问题：过拟合与规则化。阅读全文

posted @ 2019-01-04 10:31 wqbin 阅读(439) 评论(0) 推荐(0)

数据仓库的基本理论

摘要：1.数仓建模的目标访问性能：能够快速查询所需的数据，减少数据I/O数据成本：减少不必要的数据冗余，实现计算结果数据复用，降低大数据系统中的存储成本和计算成本使用效率：改善用户应用体验，提高使用数据的效率数据质量：改善数据统计口径的不一致性，减少数据计算错误的可能性，提供高质量的、一致的数据访问平台阅读全文

posted @ 2019-01-04 09:28 wqbin 阅读(1542) 评论(0) 推荐(0)

spark为什么比hadoop的mr要快？

摘要：1.前言 Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。但是事实上，不光Spark是内存计算，Hadoop其实也是内存计算。 Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁阅读全文

posted @ 2019-01-04 09:19 wqbin 阅读(7484) 评论(6) 推荐(2)

关于中间表，结果表，和依赖表

摘要：需求：同事让我写一个python代码实现对某一文件下所有sql文件中的sql语句进行扫描，观察每个sql判断每个table是作为中间表，结果表还是依赖表。思路当然是用正则去匹配；我们先复习一下什么是三个表究竟是啥？阅读全文

posted @ 2019-01-03 22:07 wqbin 阅读(1501) 评论(0) 推荐(0)

np中的温故知新

摘要：1.一维数组中寻找与某个数最近的数随机数组： [0.87249114 0.64595395 0.10142435 0.46202885 0.15948433 0.53886897 0.17802543 0.0885369 0.9859855 0.92086206 0.94694556 0.9814 阅读全文

posted @ 2019-01-03 10:32 wqbin 阅读(463) 评论(0) 推荐(0)

按列排序，行变换

摘要：1.import numpy as npZ=np.random.randint(0,10,(5,5)) print("排序前：\n",Z) print("Z[:,2]：\n",Z[:,2],type(Z[:,2])) print("Z[:,2].argsort：\n",Z[:,2].argsort( 阅读全文

posted @ 2019-01-03 09:42 wqbin 阅读(315) 评论(0) 推荐(0)

np中的随机函数

摘要：numpy.random.uniform介绍： 1. 函数原型： numpy.random.uniform(low,high,size) ==》也即其他函数是对该函数的进一步封装功能：从一个均匀分布[low,high)中随机采样，注意定义域是左闭右开，即包含low，不包含high. 参数介绍: l 阅读全文

posted @ 2019-01-03 09:31 wqbin 阅读(846) 评论(0) 推荐(0)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

01 2019 档案

公告