wqbin - 博客园

2019年4月21日

摘要： Kd-树概念 Kd-树其实是K-dimension tree的缩写，是对数据点在k维空间中划分的一种数据结构。其实，Kd-树是一种平衡二叉树。举一示例：假设有六个二维数据点 = {（2,3），（5,4），（9,6），（4,7），（8,1），（7,2）}，数据点位于二维空间中。为了能有效的找到最阅读全文

posted @ 2019-04-21 11:20 wqbin 阅读(5057) 评论(0) 推荐(1)

2019年4月12日

小波的面试题

摘要：被朋友问到一个面试题，实在没有时间，最近忙着投产，太忙了，所以晚上抽出时间，写封博客给他看看。思路： spark ->df->contextsql 用sql做阅读全文

posted @ 2019-04-12 01:40 wqbin 阅读(356) 评论(0) 推荐(1)

python上下文管理器

摘要： 1.what AND demo 我们希望把一些操作放到一个代码块中，这样在代码块中执行时就可以保持在某种运行状态，而当离开该代码块时就执行另一个操作，结束当前状态；所以，简单来说，上下文管理器的目的就是规定对象的使用范围，如果超出范围就采取“处理”。 with 语句内置上下文管理工具。不使用上下文阅读全文

posted @ 2019-04-12 00:59 wqbin 阅读(272) 评论(0) 推荐(0)

2019年4月11日

hive元数据

摘要：本文介绍Hive元数据库中一些重要的表结构及用途，方便Impala、SparkSQL、Hive等组件访问元数据库的理解。 1、存储Hive版本的元数据表(VERSION) 该表比较简单，但很重要。 VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 Hive版本版阅读全文

posted @ 2019-04-11 05:09 wqbin 阅读(1984) 评论(0) 推荐(0)

2019年4月4日

hive中的 lateral view

摘要： lateral view用于和split, explode等UDTF一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。一个简单的例子，假设我们有一张表pageAds，它有两列数据，第一列是pageid string，第二列是adid_list，即用逗号分隔的广告ID集合阅读全文

posted @ 2019-04-04 00:16 wqbin 阅读(13845) 评论(2) 推荐(4)

2019年3月19日

海森矩阵和半正定矩阵

摘要：多元函数的Hessian矩阵就类似一元函数的二阶导。多元函数Hessian矩阵半正定就相当于一元函数二阶导非负，半负定就相当于一元函数二阶导非正。如果这个类比成立的话，凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。至于为什么这个类是有道理的，你要这么看。阅读全文

posted @ 2019-03-19 23:08 wqbin 阅读(10677) 评论(0) 推荐(1)

2019年3月18日

hive 汇率拉链表转日连续流水表

摘要： 1.什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。我们先看一个示例，这就是一张拉链表，存储的是汇率以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。我们首先阅读全文

posted @ 2019-03-18 00:23 wqbin 阅读(1439) 评论(0) 推荐(0)

2019年3月17日

特征工程之分箱--Best-KS分箱

摘要：变量的KS值 KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估，指标衡量的是好坏样本累计部分之间的差距。KS值越大，表示该变量越能将正，负客户的区分程度越大。通常来说，KS>0.2即表示特征有较好的准确率。强调一下，这里的KS值是变量的KS值，而不是模型的KS值。（后面的模阅读全文

posted @ 2019-03-17 23:20 wqbin 阅读(8821) 评论(0) 推荐(0)

特征工程中的IV和WOE详解

摘要： 1.IV的用途 IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自阅读全文

posted @ 2019-03-17 16:45 wqbin 阅读(15050) 评论(0) 推荐(4)

特征工程之分箱--卡方分箱

摘要： 1.定义分箱就是将连续变量离散化，将多状态的离散变量合并成少状态。 2.分箱的用处离散特征的增加和减少都很容易，易于模型的快速迭代；稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；列表内容离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化阅读全文

posted @ 2019-03-17 16:24 wqbin 阅读(14096) 评论(1) 推荐(1)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

公告