5.22 有关游戏评论
1、特征工程原则:特征之间、特征和label之间不要有相关性,保持相对独立,有算法就专门为了识别强相关性特征只保留一个。
---多重共线性:在很多实际的数据当中,往往存在多个互相关联的特征,这时候模型就会变得不稳定,数据中细微的变化就可能导致模型的巨大变化(模型的变化本质上是系数,或者叫参数,可以理解成W),这会让模型的预测变得困难,这种现象也称为多重共线性。
2、jieba切词默认词库是有很多不存在的词的比如网络词,可以考虑词库的扩充
https://github.com/fxsjy/jieba
用法: jieba.load_userdict(file_name) # file_name为自定义词典的路径
3、文本纠错 pycorrector#太复杂,跑不起来。尝试自己构建常见脏话的词表,只替代这些词(词表可扩展)比如将“傻逼”放入词表中,自动替代像“沙币”“沙比”‘煞笔’。。。为“傻逼”
4、怎么处理表情语?比如:我【柠檬】了,比较难,现在想到最好的处理方法是:
预处理保留原表情,切词的时候也确保一下不要被切掉,然后在embedding 的时候把表情当成一个token,在RNN模型应该有用,但是在review_model人工提取特征的模型上只添加了一个表情计数的特征,应该作用不大
5、emoji和数字会不会不替换比较好,比如:66666——是的,不替换
6、大数据,一次epoch之后才做一次验证很容易过拟合的,应该每多少条数据做一次验证——增量训练(分批,每一批数据训练的模型保存,下一批数据load上一次的模型,在上一次模型的基础上进行训练)的效果会差一些,所以在电脑能跑的起来的情况下还是全量训练。
                    
                
                
            
        
浙公网安备 33010602011771号