10 2017 档案
摘要:以下内容基本来自于《统计自然语言处理》: 熵又称为自信息(self-information),可以视为描述一个随机变量 的不确定性的数量。它表示信源X每发一个符号(不论发什么符号)所 提供的平均信息量[姜丹,2001]。一个随机变量的熵越大,它的不确 定性越大,那么,正确估计其值的可能性就越小。越不
阅读全文
摘要:跟着Bag of Words Meets Bags of Popcorn的初学者实例,敲了一遍代码。主要用到的是CountVectorizer,生成每个评论的词频向量,然后利用随机森林建立模型,对新的评论进行预测。提交之后,分数大概为0.84。
阅读全文

浙公网安备 33010602011771号