10 2017 档案

NLP之熵相关概念

摘要：以下内容基本来自于《统计自然语言处理》：熵又称为自信息（self-information），可以视为描述一个随机变量的不确定性的数量。它表示信源X每发一个符号（不论发什么符号）所提供的平均信息量［姜丹，2001］。一个随机变量的熵越大，它的不确定性越大，那么，正确估计其值的可能性就越小。越不阅读全文

posted @ 2017-10-29 23:09 Fall12 阅读(590) 评论(0) 推荐(0)

【NLP】初学自然语言处理

摘要：跟着Bag of Words Meets Bags of Popcorn的初学者实例，敲了一遍代码。主要用到的是CountVectorizer，生成每个评论的词频向量，然后利用随机森林建立模型，对新的评论进行预测。提交之后，分数大概为0.84。阅读全文

posted @ 2017-10-24 09:57 Fall12 阅读(370) 评论(0) 推荐(0)

Fall12

10 2017 档案

公告