Kobe Bryant Shot Selection---心得总结
分析特征
1 用图形显示loc_x, loc_y,得出其是球场上坐标
2 将loc_x, loc_y转化为极坐标
3 将minutes_remaining and seconds_remaining这两个属性合并
4 通过nona.action_type.unique()命令,查看action_type这一列有哪些种类的值
5 发现没有用的属性列,可以记录,后面舍弃这些属性
6 用图形显示Shot distance和dist这两列的关系,发现是线性成比例,这样就只需保留其中一个属性
7 用图形显示shot_zone_area, shot_zone_basic, shot_zone_range的关系
8 用raw.drop舍弃不需要的列
9 如果使用随机森林,需要把字符串值改为哑变量dummy variables
10 将训练数据和测试数据分开
11 定义logloss函数,用于评测随机森林模型给出的预测值的准确性
12 双重循环,外重循环找出随机森林模型的两个参数的最优值(n_estimators , max_depth),内重循环KFold做交叉验证,将训练集分成10份,9份为训练数据,1份为测试数据
13 将训练数据中的属性列和标签列分开:
train = df.drop('shot_made_flag', 1)
train_y = df['shot_made_flag']
14 提取numpy中的某一列:pred[:,1]
15 model.predict()返回的是一列预测的标签,model.predict_proba()返回的是一列各个标签的概率,其中标签的顺序是从小到大排序的
posted on 2019-02-25 10:28 wangzhonghan 阅读(321) 评论(0) 收藏 举报
                    
                
                
            
        
浙公网安备 33010602011771号