随笔分类 -  NLP

摘要:第五章 词类标注 词类(Part-of-Speech, POS),能够提供关于单词及其近邻成分的大量有用信息。 词类标注的方法:手写规则(基于规则标注),统计方法(隐式马尔科夫模型标注HMM,最大熵标注,基于转换的标注,基于记忆的标注)。 5.1 英语词的分类 词类是根据单词的句法功能和形态功能来定 阅读全文
posted @ 2019-11-08 16:39 Yanqiang 阅读(981) 评论(0) 推荐(0)
摘要:第十六章 语言和复杂性 自然语言中的形式化方法,比如有限状态自动机、马尔科夫模型、转录机、音位重写规则、上下文无关语法等,都可以用他们的能力来描述,这种能力等价于它们所描述的现象的复杂性。 Chomsky层级是一种理论方法,可以比较这些形式化方法的表达能力或复杂性。上下文无关语法没有足够的能力来模拟 阅读全文
posted @ 2019-10-24 14:24 Yanqiang 阅读(706) 评论(0) 推荐(0)
摘要:第四章 N元语法 本章开篇的两句话很有意思,代表了当时两个学派的思想和矛盾。 一句是"有史以来最伟大的语言学家"乔姆斯基说的:"句子的概率,在任何已知的对于这个术语的解释中,都是一个完全无用的概念"。 他提出了形式语言,坚信可以通过语法规则来处理文字,对概率不屑一顾。 而另一句是语言处理大师贾里尼克 阅读全文
posted @ 2019-10-23 11:46 Yanqiang 阅读(1411) 评论(2) 推荐(0)
摘要:1. 比赛介绍 比赛地址: "阿里云恶意程序检测新人赛" 这个比赛和已结束的 "第三届阿里云安全算法挑战赛" 赛题类似,是一个开放的长期赛。 2. 前期准备 因为训练数据量比较大,本地CPU跑不起来,所以决定用Google的Colaboratory来跑,期间也遇到了几个坑。 首先是文件上传比较慢,几 阅读全文
posted @ 2019-10-12 09:47 Yanqiang 阅读(1500) 评论(0) 推荐(0)
摘要:作业任务: 使用98年人民日报语料库进行词性标注训练及测试。 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集。 运行环境: Jupyter Notebook, Python3 作业方法: 使用简单的统计词频的方法,对于单词的 阅读全文
posted @ 2019-07-28 16:27 Yanqiang 阅读(722) 评论(9) 推荐(0)
摘要:作业任务: 使用98年人民日报语料库进行中文分词训练及测试。 作业输入: 98年人民日报语料库(1998 01 105 带音.txt),用80%的数据作为训练集,20%的数据作为验证集。 运行环境: Jupyter Notebook, Python3 作业方法: 实现了前向匹配算法的分词功能。 源码 阅读全文
posted @ 2019-07-27 20:09 Yanqiang 阅读(674) 评论(0) 推荐(0)