随笔分类 - 自然语言处理
摘要:一:准备数据 机器学习的算法要取得好效果,离不开数据。首先从网上拉一些数据用来测试。首先拉取英文数据: 我从英文小说网拉取了英文数据,对英文小说的句子进行清洗,得到我们想要的: 然后拉取中文数据:我从新闻网站获得很多的中文文章,处理数据 经过上面处理得到data.csv格式的数据,建议中文的数据量和
阅读全文
摘要:一:引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 二:贝叶斯公式 贝叶斯公式就这一行: 而它其实是由以下的联合概率公式推导出来的: 其中P(Y)
阅读全文
摘要:一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函
阅读全文
摘要:一:简介 正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。
阅读全文

浙公网安备 33010602011771号