-----------__-----------接上文---------__----------    

                                          2、Xlab RF上手


2.1、训练特征表准备

训练的特征表gbrt_offline_section_one_24格式为:user_id,brand_id,feature1,feature2...Label    (和GBRT时候是一样的),见下图所看到的:

                           

2.2、RF训练

利用训练的特征表gbrt_offline_section_one_24。进行RF训练,例如以下图所以

                          

进入配置界面,在Features 框里勾选训练特征以及该特征连续与否,在Class框里目标处选择标签列。模型输出表处填写输出模型表名:gbrt_offline_section_one_25。进一步,点击參数配置选项卡,进入參数配置界面。进行參数配置,我们主要配置了树的棵树,配置好后。进行训练,例如以下图所看到的:

                                    

                                   

训练结束,得到RF模型表gbrt_offline_section_one_25。


2.3、RF预測

利用预測特征表gbrt_offline_section_two_11进行RF预測。例如以下图所看到的:

                      

进入配置界面:在结果附加列中加入user_id ,brand_id 列。勾选目标列2分类,主分类为1,这样预測结果表中就会给出预測为1 的概率值,输出信息处填写预測输出表,进行预測,例如以下图:

                         

预測完毕之后就可以依据conclusion=1推断预測的正样本,或者依据probability阈值推断(从一位哈工大同学大帅那里得到了例如以下控制推荐条数的好方法)。例如以下图:

         

  最后,比赛做到如今,都快三个月了,没有了当初的兴奋,都在为刷分而刷分,早已违背了当初的參赛初衷,还有十几天就到头了。想说,最终知道啥是大数据竞赛了。

。。

。。坑。。。

。。

。。。

                                          -----------__-----------完--------__-----------

posted on 2017-06-05 15:21  lxjshuju  阅读(133)  评论(0编辑  收藏  举报