摘要:
背景:广告商往往想知道关于一个人的一些特定人口统计信息,以便能更好地定向推销广告。我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的信息,来比较这两个城市的人们在广告用词上是否不同。如果结论确实不同,那么他们各自常用的词是那些,从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解。... 阅读全文
posted @ 2015-10-07 22:38
chamie
阅读(1075)
评论(0)
推荐(0)
摘要:
摘要:这里用的是词袋模型,即一个词在文档中出现不止一次,每个单词可以出现多次。1、准备数据:切分文本前一节过滤网站恶意留言中词向量是给定的,下面介绍如何从文本文档中构建自己的词列表先举例说明,在python提示符下输入:>>> mySent='This book is the best book o... 阅读全文
posted @ 2015-10-07 20:07
chamie
阅读(1421)
评论(3)
推荐(0)
摘要:
背景:以在线社区的留言板为例,为了不影响社区的发展,我们需要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。过滤这类内容是一个很常见的需求,对此问题建立两个类别:侮辱类和非侮辱类,使用0和1分别表示。接下来首先给出将文本转换为数字向量... 阅读全文
posted @ 2015-10-07 11:15
chamie
阅读(743)
评论(0)
推荐(0)
浙公网安备 33010602011771号