2015 年 10月 7 日随笔档案 - chamie

2015年10月7日

【Machine Learning in Action --4】朴素贝叶斯从个人广告中获取区域倾向

摘要：背景：广告商往往想知道关于一个人的一些特定人口统计信息，以便能更好地定向推销广告。我们将分别从美国的两个城市中选取一些人，通过分析这些人发布的信息，来比较这两个城市的人们在广告用词上是否不同。如果结论确实不同，那么他们各自常用的词是那些，从人们的用词当中，我们能否对不同城市的人所关心的内容有所了解。... 阅读全文

posted @ 2015-10-07 22:38 chamie 阅读(1075) 评论(0) 推荐(0)

【Machine Learning in Action --4】朴素贝叶斯电子邮件垃圾过滤

摘要：摘要：这里用的是词袋模型，即一个词在文档中出现不止一次，每个单词可以出现多次。1、准备数据：切分文本前一节过滤网站恶意留言中词向量是给定的，下面介绍如何从文本文档中构建自己的词列表先举例说明，在python提示符下输入：>>> mySent='This book is the best book o... 阅读全文

posted @ 2015-10-07 20:07 chamie 阅读(1421) 评论(3) 推荐(0)

【Machine Learning in Action --4】朴素贝叶斯过滤网站的恶意留言

摘要：背景：以在线社区的留言板为例，为了不影响社区的发展，我们需要屏蔽侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标识为内容不当。过滤这类内容是一个很常见的需求，对此问题建立两个类别：侮辱类和非侮辱类，使用0和1分别表示。接下来首先给出将文本转换为数字向量... 阅读全文

posted @ 2015-10-07 11:15 chamie 阅读(743) 评论(0) 推荐(0)