09 2019 档案

摘要:眼残cmake版本配错了搞了半天,简单记录一下,老规矩,参考一下官方的文档. 整体的命令行如上所述,在cmake编译的时候会提示cmake版本要高于3.12,这里给一个cmake3.14的安装流程 cpu跑xgboost太慢了,配好gpu版的一跑显存不够...打扰了,小的这就换电脑 阅读全文
posted @ 2019-09-14 17:29 猪突猛进!!! 阅读(2484) 评论(0) 推荐(0)
摘要:推荐先看一手官方的Installation Guide.我用的是ubuntu 16.04,一些要求如下图: 主要是OpenCL以及libboost两个环境的要求. (1) OpenCL的安装.我这里之前安装了NVIDA-395的驱动以及CUDA 9.0,只需要在编译的时候给出对应的path就可以了( 阅读全文
posted @ 2019-09-12 11:01 猪突猛进!!! 阅读(2263) 评论(0) 推荐(0)
摘要:引言 GBDT已经有了比较成熟的应用,例如XGBoost和pGBRT,但是在特征维度很高数据量很大的时候依然不够快。一个主要的原因是,对于每个特征,他们都需要遍历每一条数据,对每一个可能的分割点去计算信息增益。为了解决这个问题,本文提出了两个新技术:Gradient-based One-Side S 阅读全文
posted @ 2019-09-11 15:52 猪突猛进!!! 阅读(1610) 评论(0) 推荐(0)
摘要:Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。 当预测偏差小于 δ 时,它采用平方误差,当预测偏差大于 δ 时,采用的线性误差。 相比于最小二乘的线性回归,HuberLoss降低了对离群点的惩罚 阅读全文
posted @ 2019-09-09 19:13 猪突猛进!!! 阅读(5139) 评论(0) 推荐(0)
摘要:分类变量的处理 编码方式: >> one-hot编码 >> 虚拟编码:one-hot编码对于k类别的变量编辑一个长度为k的特征向量,实际上自由变量只有k-1个。虚拟编码对于k类别的变量编辑一个长度为k-1的特征向量,使得编码更具有解释性 >> 效果编码:与虚拟编码类似,区别在于参照类由全部由-1的向 阅读全文
posted @ 2019-09-05 10:55 猪突猛进!!! 阅读(765) 评论(0) 推荐(0)
摘要:发数值部分 处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的分箱操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个threshold对数据二值化处理.下面主要记录一下分箱方法. yelp数据是 阅读全文
posted @ 2019-09-04 20:52 猪突猛进!!! 阅读(815) 评论(0) 推荐(0)
摘要:1540: 第k大数Time Limit: 10 Sec Memory Limit: 128 MB[Submit][Status][Web Board]Description有两个序列a,b,它们的长度分别为n和m,那么将两个序列中的元素对应相乘后得到的n*m个元素从大到小排列后的第k个元素是什么? 阅读全文
posted @ 2019-09-01 19:42 猪突猛进!!! 阅读(233) 评论(0) 推荐(0)