10 2017 档案

摘要:以下内容基本来自于《统计自然语言处理》: 熵又称为自信息(self-information),可以视为描述一个随机变量 的不确定性的数量。它表示信源X每发一个符号(不论发什么符号)所 提供的平均信息量[姜丹,2001]。一个随机变量的熵越大,它的不确 定性越大,那么,正确估计其值的可能性就越小。越不 阅读全文
posted @ 2017-10-29 23:09 Fall12 阅读(584) 评论(0) 推荐(0)
摘要:跟着Bag of Words Meets Bags of Popcorn的初学者实例,敲了一遍代码。主要用到的是CountVectorizer,生成每个评论的词频向量,然后利用随机森林建立模型,对新的评论进行预测。提交之后,分数大概为0.84。 阅读全文
posted @ 2017-10-24 09:57 Fall12 阅读(369) 评论(0) 推荐(0)