2019 年 9月随笔档案 - 猪突猛进！！！

Xgboost GPU配置

摘要：眼残cmake版本配错了搞了半天,简单记录一下,老规矩,参考一下官方的文档. 整体的命令行如上所述,在cmake编译的时候会提示cmake版本要高于3.12,这里给一个cmake3.14的安装流程 cpu跑xgboost太慢了,配好gpu版的一跑显存不够...打扰了,小的这就换电脑阅读全文

posted @ 2019-09-14 17:29 猪突猛进！！！阅读(2484) 评论(0) 推荐(0)

lightGBM gpu环境配置

摘要：推荐先看一手官方的Installation Guide.我用的是ubuntu 16.04,一些要求如下图: 主要是OpenCL以及libboost两个环境的要求. (1) OpenCL的安装.我这里之前安装了NVIDA-395的驱动以及CUDA 9.0,只需要在编译的时候给出对应的path就可以了( 阅读全文

posted @ 2019-09-12 11:01 猪突猛进！！！阅读(2263) 评论(0) 推荐(0)

论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

摘要：引言 GBDT已经有了比较成熟的应用，例如XGBoost和pGBRT，但是在特征维度很高数据量很大的时候依然不够快。一个主要的原因是，对于每个特征，他们都需要遍历每一条数据，对每一个可能的分割点去计算信息增益。为了解决这个问题，本文提出了两个新技术：Gradient-based One-Side S 阅读全文

posted @ 2019-09-11 15:52 猪突猛进！！！阅读(1610) 评论(0) 推荐(0)

Huber Loss 介绍

摘要：Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。当预测偏差小于 δ 时，它采用平方误差,当预测偏差大于 δ 时，采用的线性误差。相比于最小二乘的线性回归，HuberLoss降低了对离群点的惩罚阅读全文

posted @ 2019-09-09 19:13 猪突猛进！！！阅读(5139) 评论(0) 推荐(0)

精通特征工程笔记（二）

摘要：分类变量的处理编码方式： >> one-hot编码 >> 虚拟编码：one-hot编码对于k类别的变量编辑一个长度为k的特征向量，实际上自由变量只有k-1个。虚拟编码对于k类别的变量编辑一个长度为k-1的特征向量，使得编码更具有解释性 >> 效果编码：与虚拟编码类似，区别在于参照类由全部由-1的向阅读全文

posted @ 2019-09-05 10:55 猪突猛进！！！阅读(765) 评论(0) 推荐(0)

精通特征工程笔记(一)

摘要：发数值部分处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的分箱操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个threshold对数据二值化处理.下面主要记录一下分箱方法. yelp数据是阅读全文

posted @ 2019-09-04 20:52 猪突猛进！！！阅读(815) 评论(0) 推荐(0)

zcmu 1540第k大数

摘要：1540: 第k大数Time Limit: 10 Sec Memory Limit: 128 MB[Submit][Status][Web Board]Description有两个序列a，b，它们的长度分别为n和m，那么将两个序列中的元素对应相乘后得到的n*m个元素从大到小排列后的第k个元素是什么？阅读全文

posted @ 2019-09-01 19:42 猪突猛进！！！阅读(233) 评论(0) 推荐(0)

不搞事情和咸鱼有什么区别

09 2019 档案

公告