Kobe Bryant Shot Selection---心得总结

分析特征

1 用图形显示loc_x, loc_y，得出其是球场上坐标

2 将loc_x, loc_y转化为极坐标

3 将minutes_remaining and seconds_remaining这两个属性合并

4 通过nona.action_type.unique()命令，查看action_type这一列有哪些种类的值

5 发现没有用的属性列，可以记录，后面舍弃这些属性

6 用图形显示Shot distance和dist这两列的关系，发现是线性成比例，这样就只需保留其中一个属性

7 用图形显示shot_zone_area, shot_zone_basic, shot_zone_range的关系

8 用raw.drop舍弃不需要的列

9 如果使用随机森林，需要把字符串值改为哑变量dummy variables

10 将训练数据和测试数据分开

11 定义logloss函数，用于评测随机森林模型给出的预测值的准确性

12 双重循环，外重循环找出随机森林模型的两个参数的最优值（n_estimators , max_depth），内重循环KFold做交叉验证，将训练集分成10份，9份为训练数据，1份为测试数据

13 将训练数据中的属性列和标签列分开：

train = df.drop('shot_made_flag', 1)
train_y = df['shot_made_flag']

14 提取numpy中的某一列：pred[:,1]

15 model.predict（）返回的是一列预测的标签，model.predict_proba（）返回的是一列各个标签的概率，其中标签的顺序是从小到大排序的

posted on 2019-02-25 10:28 wangzhonghan 阅读(328) 评论(0) 收藏举报

刷新页面返回顶部

wangzhonghan