自然语言处理 - 随笔分类 - 寂静的天空

基于贝叶斯的简单语种检测

摘要：一：准备数据机器学习的算法要取得好效果，离不开数据。首先从网上拉一些数据用来测试。首先拉取英文数据：我从英文小说网拉取了英文数据，对英文小说的句子进行清洗，得到我们想要的：然后拉取中文数据：我从新闻网站获得很多的中文文章，处理数据经过上面处理得到data.csv格式的数据，建议中文的数据量和阅读全文

posted @ 2018-03-28 14:45 寂静的天空阅读(278) 评论(0) 推荐(0)

朴素贝叶斯

摘要：一：引言贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。二：贝叶斯公式贝叶斯公式就这一行：而它其实是由以下的联合概率公式推导出来的：其中P(Y) 阅读全文

posted @ 2018-03-28 10:29 寂静的天空阅读(752) 评论(0) 推荐(0)

jieba中文处理

摘要：一：前言和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具，是以分词起家的，但是功能比分词要强大很多。二：基本分词函阅读全文

posted @ 2018-03-27 21:14 寂静的天空阅读(12625) 评论(0) 推荐(0)

python正则表达式

摘要：一：简介正则表达式是处理字符串的强大工具，拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时，有些情况用str自带的函数(比如find, in)可能可以完成，有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串)，这个时候我们需要一个某种模式的工具，这个时候正则表达式就派上用场了。阅读全文

posted @ 2018-03-27 18:25 寂静的天空阅读(1414) 评论(0) 推荐(0)

Felix Wang

Do the right things! Talk is cheap,Show me the code!

随笔分类 - 自然语言处理

公告