摘要: 阿里云环境下,循环删除分区操作,通过pyodps实现: 我的分区字段是dt,类型是bigint t = o.get_table('tmp_activity_push') for a in range(20190501,20190530): date = 'dt =' + str(a) print(d 阅读全文
posted @ 2019-07-01 22:45 活不明白 阅读(92) 评论(0) 推荐(0)
摘要: 一、hive严格查询模式下使用order by必须加limit有系统性能的提升 书中看到这么一句话,强制用户增加这个limit语句可以防止reducer额外执行很长一段时间。 执行效率是有明显提高的,代码端可以体现出来,重点说下体现在哪里。 SELECT client_str FROM bigdat 阅读全文
posted @ 2019-05-18 21:59 活不明白 阅读(67) 评论(0) 推荐(0)
摘要: 一、Adaboosting 1、Adaboosting的大致思路,第一个模型跑完之后,根据这个模型和实际数据的误差调整样本点的权值,不断进行下去 2、Adaboosting的公式推导(补) 3、Adaboosting的具体使用 import numpy as np import matplotlib 阅读全文
posted @ 2019-04-06 00:50 活不明白 阅读(33) 评论(0) 推荐(0)
摘要: 一、Random Forest 随机森林sklearn中有封装好的类库,不仅有对特征和数据集的随机选择,在节点划分上,在随机的特征子集上寻找最优划分特征(这也是开源库比自己实现的效果好的原因,在细微处都是有优化的,同时,看别人写的源码和自己实现都是获益匪浅)。 使用实例: import numpy 阅读全文
posted @ 2019-04-06 00:08 活不明白 阅读(32) 评论(0) 推荐(0)
摘要: 一、Bagging和Pasting 上一节说到了集成学习的Voting,基于投票的集成学习就集成了几个分类器的结果,相对来说不是很多,我们需要更多的模型,也就是投票的人更多,且这些模型之间不一样,使得我们的模型更为健壮。 我们可以让每个子模型只看数据的一部分,算法可以使用同一个;使用一部分数据会使得 阅读全文
posted @ 2019-04-05 23:01 活不明白 阅读(63) 评论(0) 推荐(0)
摘要: 一、什么是集成学习 集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个学习器都是同质的"弱学习器"。 上面的描述来自百度百科,看定义的话知道是基于‘弱学习器’的,很多讲集成学习的教程都会先讲决策树 阅读全文
posted @ 2019-04-05 21:40 活不明白 阅读(83) 评论(0) 推荐(0)
摘要: 工作中清洗日志数据的时候有时候会有这样的场景,要看用户连续登陆的情况,或者商家连续有单,用户持续下单的数据,这时候可以写个UDF,如果嫌麻烦的可以参考以下sql,可以计算出用户连续登陆的天数,diff = 1就是连续登陆2天的,大于1就是连续登陆多天以上的。 --假定数据形式是:dt(登录日期-yy 阅读全文
posted @ 2019-01-19 14:40 活不明白 阅读(40) 评论(0) 推荐(0)
摘要: 数据库表设计的时候有一定的科学规范,就是三范式 一、第一范式 数据库表中不能出现重复记录,每个字段是原子性的不能再分 理解:记录没有重复的,即使业务信息是重复的,主键不一样,也认为是不同记录;每个字段记录的信息是最小粒度 二、第二范式 第二范式是建立在第一范式基础上的,另外要求所有非主键字段完全依赖 阅读全文
posted @ 2019-01-07 00:28 活不明白 阅读(30) 评论(0) 推荐(0)
摘要: 一、什么是索引 索引被用来快速找出在一个列上用一特定值的行。没有索引,MySQL不得不首先以第一条记录开始,然后读完整个表直到它找出相关的行。表越大,花费时间越多。对于一个有序字段,可以运用二分查找(Binary Search),这就是为什么性能能得到本质上的提高。MYISAM和INNODB都是用B 阅读全文
posted @ 2019-01-06 16:19 活不明白 阅读(18) 评论(0) 推荐(0)
摘要: 在建表的时候,我们都会在表中指定存储引擎,这个引擎有很多种。 首先,我们可以通过 SHOW ENGINES 命令查看我们的存储引擎,我这里用的是阿里云rds数据库,也就是mysql5.6版本。 如果修改现有表的引擎通过这个语句:ALTER TABLE TABLE_NAME ENGINE = INNO 阅读全文
posted @ 2019-01-05 22:33 活不明白 阅读(30) 评论(0) 推荐(0)