2015年8月24日

Python自然语言处理学习笔记之信息提取步骤&分块(chunking)

摘要: 一、信息提取模型 信息提取的步骤共分为五步,原始数据为未经处理的字符串,第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings第二步:分词,[nltk.word_tokenize(sent) for sent in sentences]实现... 阅读全文

posted @ 2015-08-24 19:37 cs_暗流 阅读(12399) 评论(0) 推荐(0) 编辑

Python自然语言处理学习笔记之评价(evaluationd)

摘要: 对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法。 一、测试集的选择 1、首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于新案例。 2、如果分类的类别比较少,比如只有两个,而且每类的样本数大致相等,那100个样本... 阅读全文

posted @ 2015-08-24 11:53 cs_暗流 阅读(1815) 评论(1) 推荐(0) 编辑

Python自然语言处理学习笔记之选择正确的特征(错误分析 error analysis)

摘要: 选择合适的特征(features)对机器学习的效率非常重要。特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的。 一种做法是把你能想到的所有特征都加进去,然后再检查哪个特征是重要的(参考资料上说这叫"kitchen sink" app... 阅读全文

posted @ 2015-08-24 10:20 cs_暗流 阅读(884) 评论(0) 推荐(0) 编辑

2015年8月23日

Python自然语言处理学习笔记之性别识别

摘要: 从今天起开始写自然语言处理的实践用法,今天学了文本分类,并没用什么创新的东西,只是把学到的知识点复习一下性别识别(根据给定的名字确定性别) 第一步是创建一个特征提取函数(feature extractor):该函数建立了一个字典,包含给定姓名的有关特征信息。>>> def gender_fea... 阅读全文

posted @ 2015-08-23 21:18 cs_暗流 阅读(4053) 评论(0) 推荐(0) 编辑

2015年8月16日

cordova调用本地SQLite数据库的方法

摘要: 第一篇技术博客,写下来和大家分享今天所学,其次自己也巩固一下。 整个下午的时间用来钻研如何用cordova调用移动端本地SQLite数据库。首先我并不是用eclipse来编程的,而是用cordova建立project后直接用notepad编辑www下的index文件。一、cordova的下载安... 阅读全文

posted @ 2015-08-16 00:46 cs_暗流 阅读(17730) 评论(0) 推荐(1) 编辑

导航