NLP - 随笔分类(第2页) - Yanqiang

【读书笔记】自然语言处理综论 -- 第五章 -- 词性标注

摘要：第五章词类标注词类(Part-of-Speech, POS)，能够提供关于单词及其近邻成分的大量有用信息。词类标注的方法：手写规则(基于规则标注)，统计方法(隐式马尔科夫模型标注HMM，最大熵标注，基于转换的标注，基于记忆的标注)。 5.1 英语词的分类词类是根据单词的句法功能和形态功能来定阅读全文

posted @ 2019-11-08 16:39 Yanqiang 阅读(981) 评论(0) 推荐(0)

【读书笔记】自然语言处理综论 -- 第十六章 -- 语言和复杂性

摘要：第十六章语言和复杂性自然语言中的形式化方法，比如有限状态自动机、马尔科夫模型、转录机、音位重写规则、上下文无关语法等，都可以用他们的能力来描述，这种能力等价于它们所描述的现象的复杂性。 Chomsky层级是一种理论方法，可以比较这些形式化方法的表达能力或复杂性。上下文无关语法没有足够的能力来模拟阅读全文

posted @ 2019-10-24 14:24 Yanqiang 阅读(706) 评论(0) 推荐(0)

【读书笔记】自然语言处理综论 -- 第四章 -- N元语法

摘要：第四章 N元语法本章开篇的两句话很有意思，代表了当时两个学派的思想和矛盾。一句是"有史以来最伟大的语言学家"乔姆斯基说的："句子的概率，在任何已知的对于这个术语的解释中，都是一个完全无用的概念"。他提出了形式语言，坚信可以通过语法规则来处理文字，对概率不屑一顾。而另一句是语言处理大师贾里尼克阅读全文

posted @ 2019-10-23 11:46 Yanqiang 阅读(1411) 评论(2) 推荐(0)

【新人赛】阿里云恶意程序检测 -- 实践记录10.13 - Google Colab连接 / 数据简单查看 / 模型训练

摘要：1. 比赛介绍比赛地址： "阿里云恶意程序检测新人赛" 这个比赛和已结束的 "第三届阿里云安全算法挑战赛" 赛题类似，是一个开放的长期赛。 2. 前期准备因为训练数据量比较大，本地CPU跑不起来，所以决定用Google的Colaboratory来跑，期间也遇到了几个坑。首先是文件上传比较慢，几阅读全文

posted @ 2019-10-12 09:47 Yanqiang 阅读(1500) 评论(0) 推荐(0)

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）

摘要：作业任务：使用98年人民日报语料库进行词性标注训练及测试。作业输入： 98年人民日报语料库（1998-01-105-带音.txt），用80%的数据作为训练集，20%的数据作为验证集。运行环境： Jupyter Notebook, Python3 作业方法：使用简单的统计词频的方法，对于单词的阅读全文

posted @ 2019-07-28 16:27 Yanqiang 阅读(722) 评论(9) 推荐(0)

【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）

摘要：作业任务：使用98年人民日报语料库进行中文分词训练及测试。作业输入： 98年人民日报语料库（1998 01 105 带音.txt），用80%的数据作为训练集，20%的数据作为验证集。运行环境： Jupyter Notebook, Python3 作业方法：实现了前向匹配算法的分词功能。源码阅读全文

posted @ 2019-07-27 20:09 Yanqiang 阅读(674) 评论(0) 推荐(0)

Morfeo

github.com/YanqiangWang

随笔分类 - NLP

公告