cs_暗流

Python自然语言处理学习笔记之信息提取步骤&分块（chunking）

摘要：一、信息提取模型信息提取的步骤共分为五步，原始数据为未经处理的字符串，第一步：分句，用nltk.sent_tokenize(text)实现,得到一个list of strings第二步：分词，[nltk.word_tokenize(sent) for sent in sentences]实现... 阅读全文

posted @ 2015-08-24 19:37 cs_暗流阅读(12570) 评论(0) 推荐(0)

Python自然语言处理学习笔记之评价（evaluationd）

摘要：对模型的评价是在test set上进行的，本文首先介绍测试集应该满足的特征，然后介绍四种评价方法。一、测试集的选择 1、首先，测试集必须是严格独立于训练集的，否则评价结果一定很高，但是虚高，不适用于新案例。 2、如果分类的类别比较少，比如只有两个，而且每类的样本数大致相等，那100个样本... 阅读全文

posted @ 2015-08-24 11:53 cs_暗流阅读(1871) 评论(1) 推荐(0)

Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）

摘要：选择合适的特征（features）对机器学习的效率非常重要。特征的提取是一个不断摸索的过程（trial-and-error），一般靠直觉来发现哪些特征对研究的问题是相关的。一种做法是把你能想到的所有特征都加进去，然后再检查哪个特征是重要的（参考资料上说这叫"kitchen sink" app... 阅读全文

posted @ 2015-08-24 10:20 cs_暗流阅读(961) 评论(0) 推荐(0)

Python自然语言处理学习笔记之性别识别

摘要：从今天起开始写自然语言处理的实践用法，今天学了文本分类，并没用什么创新的东西，只是把学到的知识点复习一下性别识别（根据给定的名字确定性别）第一步是创建一个特征提取函数（feature extractor）：该函数建立了一个字典，包含给定姓名的有关特征信息。>>> def gender_fea... 阅读全文

posted @ 2015-08-23 21:18 cs_暗流阅读(4158) 评论(0) 推荐(0)

cordova调用本地SQLite数据库的方法

摘要：第一篇技术博客，写下来和大家分享今天所学，其次自己也巩固一下。整个下午的时间用来钻研如何用cordova调用移动端本地SQLite数据库。首先我并不是用eclipse来编程的，而是用cordova建立project后直接用notepad编辑www下的index文件。一、cordova的下载安... 阅读全文

posted @ 2015-08-16 00:46 cs_暗流阅读(18105) 评论(0) 推荐(1)

Python自然语言处理学习笔记之信息提取步骤&分块（chunking）

Python自然语言处理学习笔记之评价（evaluationd）

Python自然语言处理学习笔记之选择正确的特征（错误分析 error analysis）

Python自然语言处理学习笔记之性别识别

cordova调用本地SQLite数据库的方法

导航

公告