欢迎来到Felix的博客

Do the right things! And talk is cheap,show me your code!

随笔分类 -  自然语言处理

摘要:一:准备数据 机器学习的算法要取得好效果,离不开数据。首先从网上拉一些数据用来测试。首先拉取英文数据: 我从英文小说网拉取了英文数据,对英文小说的句子进行清洗,得到我们想要的: 然后拉取中文数据:我从新闻网站获得很多的中文文章,处理数据 经过上面处理得到data.csv格式的数据,建议中文的数据量和 阅读全文
posted @ 2018-03-28 14:45 寂静的天空 阅读(278) 评论(0) 推荐(0)
摘要:一:引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 二:贝叶斯公式 贝叶斯公式就这一行: 而它其实是由以下的联合概率公式推导出来的: 其中P(Y) 阅读全文
posted @ 2018-03-28 10:29 寂静的天空 阅读(749) 评论(0) 推荐(0)
摘要:一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 阅读全文
posted @ 2018-03-27 21:14 寂静的天空 阅读(12618) 评论(0) 推荐(0)
摘要:一:简介 正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。 我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。 阅读全文
posted @ 2018-03-27 18:25 寂静的天空 阅读(1408) 评论(0) 推荐(0)

个人感悟: 一个人最好的镜子就是自己,你眼中的你和别人眼中的你,不是一回事。有人夸你,别信;有人骂你,别听。一根稻草,扔街上就是垃圾;捆上白菜就是白菜价;捆上大闸蟹就是大闸蟹的价。 一个人,不狂是没有出息的,但一直狂,肯定是没有出息的。雨打残花风卷流云,剑影刀光闪过后,你满脸冷酷的站在珠峰顶端,傲视苍生无比英武,此时我问你:你怎么下去? 改变自己就是改变自己的心态,该沉的时候沉下去,该浮的时候浮上来;不争名夺利,不投机取巧,不尔虞我诈;少说、多听、多行动。人每所谓穷通寿夭为命所系,岂不知造物之报施,全视人之自取。 座佑铭:每一个不曾起舞的日子,都是对生命的辜负。