Kobe Bryant Shot Selection---心得总结

分析特征

1 用图形显示loc_x, loc_y,得出其是球场上坐标

2 将loc_x, loc_y转化为极坐标

3 将minutes_remaining and seconds_remaining这两个属性合并

4 通过nona.action_type.unique()命令,查看action_type这一列有哪些种类的值

5 发现没有用的属性列,可以记录,后面舍弃这些属性

6 用图形显示Shot distance和dist这两列的关系,发现是线性成比例,这样就只需保留其中一个属性

7 用图形显示shot_zone_area, shot_zone_basic, shot_zone_range的关系

8 用raw.drop舍弃不需要的列

9 如果使用随机森林,需要把字符串值改为哑变量dummy variables

10 将训练数据和测试数据分开

11 定义logloss函数,用于评测随机森林模型给出的预测值的准确性

12 双重循环,外重循环找出随机森林模型的两个参数的最优值(n_estimators , max_depth),内重循环KFold做交叉验证,将训练集分成10份,9份为训练数据,1份为测试数据

13 将训练数据中的属性列和标签列分开:

train = df.drop('shot_made_flag', 1)
train_y = df['shot_made_flag']

14 提取numpy中的某一列:pred[:,1]

15 model.predict()返回的是一列预测的标签,model.predict_proba()返回的是一列各个标签的概率,其中标签的顺序是从小到大排序的

posted on 2019-02-25 10:28  wangzhonghan  阅读(321)  评论(0)    收藏  举报

导航